AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%当前顶尖AI模型是否真能“看懂”物理图像?
当前顶尖AI模型是否真能“看懂”物理图像?
2025年,英伟达创始人兼CEO黄仁勋提出的“AI工厂”,正在中国半导体行业落地生根——不同于传统工厂将原材料转化为产品,AI工厂是将数据和算力转化为智能服务,帮助企业降本增效。
新版DeepSeek-R1重磅开源,凌晨已放出权重!此次模型性能几乎与o4-mini(Medium)相当,编程实测超越Claude 4 Sonnet。网友纷纷惊叹:开源又一次胜利了。
近半年来,OpenAI 形象开始变得灰暗: 团队骨干相继离职引发猜疑、组织转型遭受口诛笔伐、GPT-4.5/Sora 等模型表现不及预期,还有被 DeepSeek R1 打破的叙事神话……
MetaMind是一个多智能体框架,专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性,无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。
来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。
Google I/O 2025 结束后,Google CEO Sundar Pichai 接受了《The Verge》主编专访,这也是双方连续第三年于 I/O 后展开对谈,而今年的背景更为特殊:Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台,Google 展现出前所未有的产品化信心。
真乐观的科学家和创业者们常低估人性的缺陷,而高谈阔论的历史和哲学家们,在描绘悲观问题时又很难提出解决方案。
既当裁判员,又当运动员?