AI资讯新闻榜单内容搜索-io

VGGT4D：无需训练，挖掘3D基础模型潜力，实现4D动态场景重建

如何让针对静态场景训练的 3D 基础模型（3D Foundation Models）在不增加训练成本的前提下，具备处理动态 4D 场景的能力？

来自主题: AI技术研报

7000 点击 2025-12-17 14:38

让扩散模型「可解释」不再降质，开启图片编辑新思路

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

7451 点击 2025-12-16 16:27

成立仅2月，这家AI初创公司种子轮融资33亿，贝索斯也出手了

「奔向AGI」栏目聚焦AI大模型、AI agent、AI应用、芯片、机器人等前沿、热门的AI技术和商业创新。作者丨冯汝梅编辑丨关雎人工智能赛道又一个惊人融资事件诞生。 2025年12月8日，由前

来自主题: AI资讯

9221 点击 2025-12-16 11:06

会议软件Zoom也来搞AI了，称在AI最难考试上“击败”了Gemini 3

最近，视频会议软件公司 Zoom 发布了一条出人意料的消息：他们宣称在“人类最后的考试”（Humanity s Last Exam，简称 HLE）这个号称当前 AI 领域最具挑战性的基准测试上，取得了 48.1％的成绩，比此前由 Google Gemini 3 Pro（带工具）保持的 45.8％高出 2.3 个百分点。

来自主题: AI资讯

7551 点击 2025-12-15 17:26

Minion Skills: Claude Skills的开源实现

Claude最近推出了一个令人兴奋的特性——Skills系统。它让AI Agent能够动态加载专业能力，按需”学习”处理PDF、Excel、PPT等专业文档的技能。作为一个开源爱好者，我立刻意识到这个设计的价值，并在Minion框架中实现了完整的开源版本。本文将介绍Skills的设计理念，以及我的开源实现细节。

来自主题: AI资讯

9747 点击 2025-12-15 17:23

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

来自主题: AI资讯

9418 点击 2025-12-15 11:36

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

6828 点击 2025-12-14 10:46

港大开源ViMax火了，实现AI自编自导自演

想象一下，只需要一句话描述，AI 就能为你拍出一部完整的短剧？为了让这个想法变成现实，香港大学黄超教授团队开源了 ViMax 框架，并在 GitHub 获得 1.4k + 星标，专注于 Agentic Video Generation 的前沿探索。通过多智能体协作，ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化，把传统影视制作的每个环节都搬进了 AI 世界。

来自主题: AI技术研报

8565 点击 2025-12-13 11:06

告别「盲目自信」，CCD：扩散语言模型推理新SOTA

扩散语言模型（Diffusion Language Models）以其独特的 “全局规划” 与并行解码能力广为人知，成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下，其通常面临

来自主题: AI技术研报

7278 点击 2025-12-13 10:59

效率提升25%，灵巧操作数采困境被「臂-手共享自主框架」解决

实现通用机器人的类人灵巧操作能力，是机器人学领域长期以来的核心挑战之一。近年来，视觉 - 语言 - 动作 (Vision-Language-Action，VLA) 模型在机器人技能学习方面展现出显著潜力，但其发展受制于一个根本性瓶颈：高质量操作数据的获取。

来自主题: AI技术研报

8947 点击 2025-12-12 09:38