AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现

不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。

来自主题: AI技术研报
6123 点击    2025-02-22 15:50
YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

YOLO 系列模型的结构创新一直围绕 CNN 展开,而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。

来自主题: AI技术研报
8277 点击    2025-02-22 14:14
一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

在大语言模型领域中,预训练 + 微调范式已经成为了部署各类下游应用的重要基础。在该框架下,通过使用搭低秩自适应(LoRA)方法的大模型参数高效微调(PEFT)技术,已经产生了大量针对特定任务、可重用的 LoRA 适配器。

来自主题: AI技术研报
6997 点击    2025-02-22 13:57
谷歌超硬核教科书来了!Jeff Dean带货揭Gemini训练秘籍:在TPU上scaling

谷歌超硬核教科书来了!Jeff Dean带货揭Gemini训练秘籍:在TPU上scaling

谷歌超硬核教科书来了!Jeff Dean带货揭Gemini训练秘籍:在TPU上scaling

谷歌团队发布LLM硬核技术教科书,从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。

来自主题: AI技术研报
9534 点击    2025-02-21 15:52
大模型扩展新维度:Scaling Down、Scaling Out

大模型扩展新维度:Scaling Down、Scaling Out

大模型扩展新维度:Scaling Down、Scaling Out

近年来, Scaling Up 指导下的 AI 基础模型取得了多项突破。从早期的 AlexNet、BERT 到如今的 GPT-4,模型规模从数百万参数扩展到数千亿参数,显著提升了 AI 的语言理解和生成等能力。然而,随着模型规模的不断扩大,AI 基础模型的发展也面临瓶颈:高质量数据的获取和处理成本越来越高,单纯依靠 Scaling Up 已难以持续推动 AI 基础模型的进步。

来自主题: AI技术研报
9519 点击    2025-02-21 15:43
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。

来自主题: AI技术研报
6812 点击    2025-02-21 14:28
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

来自主题: AI技术研报
6088 点击    2025-02-21 09:54
「开源类脑芯片」二代发布!支持反向传播突触学习规则和并行神经元计算

「开源类脑芯片」二代发布!支持反向传播突触学习规则和并行神经元计算

「开源类脑芯片」二代发布!支持反向传播突触学习规则和并行神经元计算

在今年1月《Journal of Supercomputing》上开源的「开源类脑芯片」二代(Polaris 23)完整版本源代码,基于RISC-V架构,支持脉冲神经网络(SNN)和反向传播STDP。该芯片通过并行架构显著提升神经元和突触处理能力,带宽和能效大幅提升,MNIST数据集准确率达91%。

来自主题: AI技术研报
7256 点击    2025-02-21 09:35
视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

数字化时代,视频内容的创作与编辑需求日益增长。从电影制作到社交媒体,高质量的视频编辑技术成为了行业的核心竞争力之一。然而,视频重打光(video relighting)—— 即对视频中的光照条件进行调整和优化,一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战,导致其难以广泛应用。

来自主题: AI技术研报
2810 点击    2025-02-20 16:49