AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:

来自主题: AI技术研报
8384 点击    2025-07-12 11:58
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报
7620 点击    2025-07-12 11:51
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报
9580 点击    2025-07-11 17:05
从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。

来自主题: AI技术研报
10125 点击    2025-07-11 16:54
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报
7423 点击    2025-07-11 16:30
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
7923 点击    2025-07-11 16:23
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

庞若鸣,苹果基础模型团队负责人、杰出工程师,即将成为 Meta 新成立的超级智能团队的最新成员。他本科毕业于上海交通大学,在谷歌工作了 15 年,此后加入苹果。另据彭博社最新消息,Meta 更是开出了 2 亿美金的天价来邀请庞若鸣加入。

来自主题: AI技术研报
8126 点击    2025-07-11 16:15
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。

来自主题: AI技术研报
9132 点击    2025-07-11 16:10
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码,给H100加速33%-50%! Flash Attention、Mamba作者之一Tri Dao的新作火了。

来自主题: AI技术研报
10107 点击    2025-07-11 16:06
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。

来自主题: AI技术研报
10118 点击    2025-07-11 10:51