AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构

字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构

字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构

字节Seed都开始用化学思想搞大模型了——深度推理是共价键、自我反思是氢键、自我探索是范德华力?!

来自主题: AI技术研报
9167 点击    2026-02-24 15:37
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

来自主题: AI技术研报
9798 点击    2026-02-24 15:35
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报
7679 点击    2026-02-24 15:16
北大团队让AI智能体「入侵」论坛,指挥真实机器人执行任务

北大团队让AI智能体「入侵」论坛,指挥真实机器人执行任务

北大团队让AI智能体「入侵」论坛,指挥真实机器人执行任务

公元前47年,凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报:「Veni, Vidi, Vici」——我来了,我看见了,我征服了。 两千多年后,北京大学杨仝教授团队也用三步定义了一种全新的AI范式:降临论坛、接管指令、统治物理世界。

来自主题: AI技术研报
7979 点击    2026-02-24 09:12
千问 3.5:0.8 元的顶级模型,我找不到它的对手

千问 3.5:0.8 元的顶级模型,我找不到它的对手

千问 3.5:0.8 元的顶级模型,我找不到它的对手

我正对着镜子站立,举起一只手。在我的视野中,这只手出现在镜子画面的左侧。 请问在现实中,我举起的是哪只手? 答案应该是:左手。 一道堪比「9.11 > 9.8」的 AI 陷阱题。 前两天,我拿它测了一

来自主题: AI产品测评
5744 点击    2026-02-24 09:12
GLM-5 技术报告全解读|a16z:“最好的开源模型”

GLM-5 技术报告全解读|a16z:“最好的开源模型”

GLM-5 技术报告全解读|a16z:“最好的开源模型”

a16z 昨天发了一张图,把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是: A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between

来自主题: AI技术研报
9420 点击    2026-02-22 23:06
训练奖励太稀疏?港中文联合美团给Agent加上「过程分」

训练奖励太稀疏?港中文联合美团给Agent加上「过程分」

训练奖励太稀疏?港中文联合美团给Agent加上「过程分」

在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷

来自主题: AI技术研报
8093 点击    2026-02-22 11:29
ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知

来自主题: AI技术研报
9261 点击    2026-02-22 11:17
霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来

霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来

霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来

GUI 智能体最近卷到什么程度了?Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:

来自主题: AI技术研报
8410 点击    2026-02-20 13:10
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

现有 VLA 模型的研究和基准测试多局限于家庭场景(如整理餐桌、折叠衣物),缺乏对专业科学场景(尤其是生物实验室)的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界面)等特点,是评估 VLA 模型精准操作、视觉推理和指令遵循能力的理想场景之一。

来自主题: AI技术研报
6694 点击    2026-02-20 13:00