3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。
当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。
美国四家科技巨头在AI领域资本开支远超中国,2024年1.7万亿人民币 vs 中国6300亿,2025年差距扩大至2.5万亿 vs 5000亿。中国公司优先分红回购,AI采用率低(15% vs 美国85%),技术债积累,网络效应加剧中美差距,中国大厂被边缘化。
备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。
智东西8月6日消息,据外媒The Information报道,知情人士透露,AI视频初创企业Runway正与投资者洽谈约5亿美元(约合人民币36亿元)的融资,投前估值不低于50亿美元(约合人民币359亿元),较上一轮融资时的估值30亿美元(约合人民币215亿元)高出67%。
近日,百川AI助诊仪在海淀区多个社区卫生服务中心上岗"执业",“AI+真人”的双医模式累计服务7743人次,海淀居民感受到了高水平AI医生带来的体验冲击。 北京市海淀区人民政府副区长林航介绍:依托“海淀健康”小程序上线AI医生助手,可辅助诊断3000多种常见疾病,有效提升了家庭医生的服务质量和效率。
英国职场心理健康初创公司Unmind近日完成了C轮融资,筹集资金达3060万欧元。这笔资金将用于进一步扩展其基于人工智能的心理健康支持平台,以帮助全球员工提升心理健康水平。
AI学会像人一样修Bug了!“这个Bug我上周刚修过”“这个报错怎么又来了”“新人怎么又在同一个地方踩坑”……
自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。
2023年,当整个AI行业都在为“最强大模型”争得头破血流时,亚马逊云科技却洞察到一个关键事实:AI的价值不在于谁的模型最强大,而在于能否为不同场景选择最适合的模型。
全网疯玩Genie3,惊叹:这才是真正的大世界!距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化