AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

近期,来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思考。他们认为,多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。

来自主题: AI技术研报
8255 点击    2026-05-30 10:49
数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

我去搜了下 MiniCPM5-1B 的数据,发现面壁智能刚刚把背后的核心数据集给开源了。一共是两份 L3 级数据集:Ultra-FineWeb-L3 :600B tokens,中英文都有,是目前最大的中文开源合成预训练数据集。

来自主题: AI技术研报
8610 点击    2026-05-30 10:06
「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题

一家名为脸谱心智(FaceMind)的初创公司就在顶级学术会议 EMNLP 主会上系统性地揭示了这个问题,并给出了解法。更有意思的是,就在「马嘉祺」事件前不到两周,全球最强 AI 公司之一 Anthropic 也在自家产品中悄悄落地了一次高度相关的改造 —— 方向与脸谱心智一年前的论文几乎完全一致。

来自主题: AI技术研报
7495 点击    2026-05-30 10:05
清华系团队给大模型织了一张“智能算力电网”

清华系团队给大模型织了一张“智能算力电网”

清华系团队给大模型织了一张“智能算力电网”

所有人都在比谁的模型参数更大,但真正决定AI能不能落地的,其实是另一件没那么性感的事:一颗Token,能不能被稳定、便宜、规模化地生产出来。死磕这件事的,是一支从中国超级计算体系里走出来的年轻团队,是石科技。

来自主题: AI资讯
9150 点击    2026-05-30 10:03
马斯克也拥抱C语言了!大模型训练堆栈抛弃JAX,提速一个数量级

马斯克也拥抱C语言了!大模型训练堆栈抛弃JAX,提速一个数量级

马斯克也拥抱C语言了!大模型训练堆栈抛弃JAX,提速一个数量级

不用JAX,SpaceX正在用C语言编写的全新堆栈训练新模型。而且马斯克本人亲口承认,Grok 5已经用的就是这个新堆栈。按马斯克的说法,这种新堆栈能让大模型训练速度提升一个数量级。

来自主题: AI资讯
7552 点击    2026-05-29 15:10
让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026

让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026

让机器人动作流畅丝滑如「连音」,千寻智能高阳团队提出Legato,入选RSS 2026

近日,千寻智能高阳团队的研究成果 《Learning Native Continuation for Action Chunking Flow Policies》 被机器人顶会 RSS 2026 接收!这项工作从训练机制出发,让机器人动作天然具有连续性,实现了 "连音" 般的流畅执行,在五个真实世界操作任务上超越了现有方法,为具身智能领域的动作生成研究提供了新的思路。

来自主题: AI技术研报
7987 点击    2026-05-29 15:10
玻璃里跑AI!华中科大&上交大科研成果登Nature子刊

玻璃里跑AI!华中科大&上交大科研成果登Nature子刊

玻璃里跑AI!华中科大&上交大科研成果登Nature子刊

光正在进入AI算力系统,但这次不只是拿来传数据,而是直接参与计算。

来自主题: AI技术研报
7174 点击    2026-05-29 10:09
国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

随着全球遥感卫星持续运行,地球观测数据正在快速增长。多源、多时相、多光谱遥感影像为国土监测、生态评估、灾害预警、气候变化研究等任务提供了重要数据基础,但也带来了显著的存储、传输和计算压力。

来自主题: AI技术研报
9193 点击    2026-05-29 09:39
LeCun新证明:世界是高斯的

LeCun新证明:世界是高斯的

LeCun新证明:世界是高斯的

LeCun的LeJEPA到底有没有构建出世界模型?他本人最新发表的论文,解答了这个问题。

来自主题: AI技术研报
8272 点击    2026-05-29 09:37