AI资讯新闻榜单内容搜索-模型

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

当前顶尖AI模型是否真能“看懂”物理图像？

来自主题: AI资讯

6909 点击 2025-05-29 13:58

独家｜融资数千万元，「知满科技」用AI大模型让半导体企业效率提升数十倍

2025年，英伟达创始人兼CEO黄仁勋提出的“AI工厂”，正在中国半导体行业落地生根——不同于传统工厂将原材料转化为产品，AI工厂是将数据和算力转化为智能服务，帮助企业降本增效。

来自主题: AI资讯

10981 点击 2025-05-29 12:02

刚刚，新版DeepSeek-R1正式开源！直逼o3编程强到离谱，一手实测来了

新版DeepSeek-R1重磅开源，凌晨已放出权重！此次模型性能几乎与o4-mini（Medium）相当，编程实测超越Claude 4 Sonnet。网友纷纷惊叹：开源又一次胜利了。

来自主题: AI资讯

7972 点击 2025-05-29 11:44

大风起兮云飞扬：Agent, o3幻觉, 刷榜, 大厂布局深意… | 南乔的月度观察

近半年来，OpenAI 形象开始变得灰暗：团队骨干相继离职引发猜疑、组织转型遭受口诛笔伐、GPT-4.5/Sora 等模型表现不及预期，还有被 DeepSeek R1 打破的叙事神话……

来自主题: AI资讯

11651 点击 2025-05-29 10:56

MetaMind元认知多智能体，让LLM理解对话背后的深层意图，首次达到人类水平 | 最新

MetaMind是一个多智能体框架，专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性，无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。

来自主题: AI技术研报

11395 点击 2025-05-29 10:31

爆火论文颠覆RL认知！「错误奖励」让LLM推理暴涨24.6%，学界惊了

来自华盛顿大学、AI2、UC伯克利研究团队证实，「伪奖励」（Spurious Rewards）也能带来LLM推理能力提升的惊喜。

来自主题: AI技术研报

8607 点击 2025-05-29 10:18

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报

8190 点击 2025-05-29 10:03

Google CEO：AI 比互联网还大，未来将是多终端并行

Google I/O 2025 结束后，Google CEO Sundar Pichai 接受了《The Verge》主编专访，这也是双方连续第三年于 I/O 后展开对谈，而今年的背景更为特殊：Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台，Google 展现出前所未有的产品化信心。

来自主题: AI资讯

9692 点击 2025-05-29 09:53

对话赫拉利王小川：当历史学家试图按下AI暂停键

真乐观的科学家和创业者们常低估人性的缺陷，而高谈阔论的历史和哲学家们，在描绘悲观问题时又很难提出解决方案。

来自主题: AI资讯

7449 点击 2025-05-29 09:50

谷歌推出开源框架，要给AI大模型的跑分“立规矩”

既当裁判员，又当运动员？

来自主题: AI资讯

8658 点击 2025-05-29 09:49