AI资讯新闻榜单内容搜索-io

谷歌版两门「小钢炮」开源！2.7亿参数干翻SOTA

谷歌这波像开了「大小号双修」：前脚用Gemini把大模型战场搅翻，后脚甩出两位端侧「师兄弟」：一个走复古硬核架构回归，一个专职教AI「别光会聊，赶紧去干活」。手机里的智能体中枢，要开始卷起来了。

来自主题: AI资讯

10306 点击 2025-12-19 14:00

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。

来自主题: AI技术研报

9341 点击 2025-12-18 16:54

速递｜OpenAI据传以7500亿美元估值融资，亚马逊百亿美元竞标“船票”试图以算力绑定

据《The Information》报道，OpenAI 正与投资者进行融资谈判，计划以 7500 亿美元的估值筹集数百亿美元资金。

来自主题: AI资讯

10368 点击 2025-12-18 16:23

挖掘注意力中的运动线索：无需训练，解锁4D场景重建能力

如何让针对静态场景训练的3D基础模型（3D Foundation Models），在不增加训练成本的前提下，具备处理动态4D场景的能力？

来自主题: AI技术研报

11050 点击 2025-12-18 09:48

VGGT4D：无需训练，挖掘3D基础模型潜力，实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型（3D Foundation Models）在不增加训练成本的前提下，具备处理动态 4D 场景的能力？

来自主题: AI技术研报

7860 点击 2025-12-17 14:38

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

8488 点击 2025-12-16 16:27

成立仅2月，这家AI初创公司种子轮融资33亿，贝索斯也出手了

「奔向AGI」栏目聚焦AI大模型、AI agent、AI应用、芯片、机器人等前沿、热门的AI技术和商业创新。作者丨冯汝梅编辑丨关雎人工智能赛道又一个惊人融资事件诞生。 2025年12月8日，由前

来自主题: AI资讯

10316 点击 2025-12-16 11:06

会议软件Zoom也来搞AI了，称在AI最难考试上“击败”了Gemini 3

最近，视频会议软件公司 Zoom 发布了一条出人意料的消息：他们宣称在“人类最后的考试”（Humanity s Last Exam，简称 HLE）这个号称当前 AI 领域最具挑战性的基准测试上，取得了 48.1％的成绩，比此前由 Google Gemini 3 Pro（带工具）保持的 45.8％高出 2.3 个百分点。

来自主题: AI资讯

8641 点击 2025-12-15 17:26

Minion Skills: Claude Skills的开源实现

Claude最近推出了一个令人兴奋的特性——Skills系统。它让AI Agent能够动态加载专业能力，按需”学习”处理PDF、Excel、PPT等专业文档的技能。作为一个开源爱好者，我立刻意识到这个设计的价值，并在Minion框架中实现了完整的开源版本。本文将介绍Skills的设计理念，以及我的开源实现细节。

来自主题: AI资讯

10784 点击 2025-12-15 17:23

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

来自主题: AI资讯

10509 点击 2025-12-15 11:36