AI执裁渐成常态,人类裁判仍掌大局 Engineering
AI执裁渐成常态,人类裁判仍掌大局 Engineering2024年7月14日,2024年欧洲杯锦标赛冠军赛如期举行,比赛将决出欧洲最佳国家足球队。在比赛只剩下不到五分钟时,西班牙队和英格兰队比分为1比1平,此时西班牙球员Mikel Oyarzabal在禁区顶端扑球,踢进了看似制胜的一球[1]。然而,在这次进攻中,Oyarzabal的位置接近越位,或者说离球门太远。
2024年7月14日,2024年欧洲杯锦标赛冠军赛如期举行,比赛将决出欧洲最佳国家足球队。在比赛只剩下不到五分钟时,西班牙队和英格兰队比分为1比1平,此时西班牙球员Mikel Oyarzabal在禁区顶端扑球,踢进了看似制胜的一球[1]。然而,在这次进攻中,Oyarzabal的位置接近越位,或者说离球门太远。
想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。
对于电子产品,我们已然习惯了「出厂即巅峰」的设定:开箱的那一刻往往就是性能的顶点,随后的每一天都在折旧。
2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。
文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。
在 Anthropic 成立五周年前夕,联合创始人兼总裁 Daniela Amodei 罕见接受了公开采访!
在上一篇《全载录丨Xsignal 全球AI应用行业年度报告丨2025》中,我们俯瞰了全球AI从“震撼期”迈入“深水区”的宏观版图。如果说那是一张新大陆的地图,那么今天,我们将目光聚焦于这场变革的“风暴眼”——中国头部科技公司的战略棋局。
Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件,正在被逐步揭开。供应链信息显示,这款产品并没有选择屏幕,而更像是一种可穿戴设备:体积接近 iPod Shuffle,可以放入口袋或随身佩戴;内置麦克风与摄像头,持续感知用户所处的真实环境,与之并肩工作,主动给出建议。
竞争是好事,它会逼着我们变得更好。面对竞争的加剧,OpenAI通过快速迭代和新产品发布来强化自身优势,并“确保我们能在这个领域赢下来”。
新年伊始,MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L. Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language Models》的论文,提出了所谓“递归语言模型”(Recursive Language Models,简称 RLM)的推理策略。