AI资讯新闻榜单内容搜索-模型

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

本文详细介绍了斯坦福大学最新提出的"以弱驭强"（W4S）范式，这一创新方法通过训练轻量级的弱模型来优化强大语言模型的工作流。核心亮点包括：

来自主题: AI技术研报

8744 点击 2025-05-12 10:10

美团独投A轮，这家「具身智能」公司已融资超10亿

《智能涌现》获悉，具身智能公司「自变量机器人」近日完成数亿元A轮融资，由美团战投领投、美团龙珠跟投。本轮融资将用于持续加速全自研端到端通用具身智能大模型与机器人本体的同步迭代，以及未来多个应用场景的智慧化方案合作和落地。

来自主题: AI资讯

9123 点击 2025-05-12 10:00

AI 月报丨大模型下半场与产品成败的关键；拥有更多用户可能会让模型更强；全球算力投资又凉了一些

2025 年 4 月的 AI 月报，你会看到：“评估（Evals）” 成为模型和 AI 产品开发的关键词；Google 继续提升 Gemini 模型能力的思路； OpenAI 的 GPT-4o 为什么变得谄媚，以及背后的问题；用户规模与模型能力提升关系不大？可能要有变化了

来自主题: AI资讯

8348 点击 2025-05-11 20:24

Manus 背后的重要 Infra，E2B 如何给 AI Agents 配备“专属电脑”？

E2B 的愿景很大，CEO 的目标是成为 AI Agent 时代的 AWS，成为一个自动化的 infra 平台，未来可以提供 GPU 支持，满足更复杂的数据分析、小模型训练、游戏生成等需求，并可以托管 agent 构建的应用，覆盖 agent 从开发到部署的完整生命周期。

来自主题: AI资讯

10608 点击 2025-05-11 15:29

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。这才几天的时间，这个估计验证工具的 2.0 版本就来了！

来自主题: AI资讯

8384 点击 2025-05-11 15:22

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型！Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。它证明“只需极少人工参与，LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据，可大幅提升模型代码生成能力。

来自主题: AI资讯

8950 点击 2025-05-11 15:18

阿里通义成了AI的“黄埔军校”？

最近阿里通义实验室应用视觉团队负责人薄列峰被曝离职，引起了一轮热议。而这已是继2月语音团队负责人鄢志杰、2024年8月大模型技术负责人周畅之后，阿里AI核心部门第三次失去关键人物了。

来自主题: AI资讯

8386 点击 2025-05-11 15:11

一个「always」站在大模型技术C位的传奇男子

怎么老是你？？？（How old are you）尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后，有网友发现，其中提到的3-token因果卷积相关内容，沙哥等又早在三年前就有相关研究。这是最近网友不断对着Transformer八子之一的Noam Shazeer（为方便阅读，我们称他为沙哥）发出的灵魂疑问。

来自主题: AI资讯

10337 点击 2025-05-11 15:02

只有通过海量测试才能抓住泛化性的本质吗？

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

来自主题: AI技术研报

8890 点击 2025-05-11 14:35

独立游戏小团队也能在GDC开讲座？｜AI原生游戏《1001夜》在旧金山的1周收获

一个月前，在旧金山全球游戏开发者大会上，AI原生独立游戏《1001夜》的制作人担任GDC Al Summit的演讲者，分享游戏中大语言模型驱动的核心玩法设计，与世界各地的游戏开发者进行了深入的交流。

来自主题: AI资讯

9007 点击 2025-05-11 14:27