AI资讯新闻榜单内容搜索-模型

让 AI 开口「像人」：最难的不是智能，是「嗓音」

Voice Agent 赛道正在爆发，但它迫切需要一个能让对话真正「流动起来」的底层引擎，一个能撑起下一代交互体验的 TTS 模型。竞争的焦点，已经从 LLM 的「大脑」，延伸到了 TTS 的「嗓音」。谁掌握嗓音，谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型，似乎正是一个专为解决这些痛点而来的答案。

来自主题: AI资讯

7731 点击 2025-10-31 15:35

重磅发布！国家队出手解决企业跨省通信「老大难」，语音识别错误率暴降20%

还在忍受方言听不懂、跨省业务推进难？联通直接放出「云+AI」大招，把这些通信顽疾一锅端！本文为你揭秘，运营商如何用科技智慧破局，打开信息「黑匣子」，让效率飙升！

来自主题: AI资讯

7148 点击 2025-10-31 15:30

大模型公司不搞浏览器搞Agent，实测找到原因了

闻乐发自凹非寺量子位 | 公众号 QbitAI 如果Agent能操作命令行，就有了与整个计算机系统交互的能力。也意味着一台计算机的几乎所有功能，都可以通过自然语言来驱动。这种产品终于有雏形了

来自主题: AI资讯

7968 点击 2025-10-31 15:17

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

7034 点击 2025-10-31 15:00

最火VLA，看这一篇综述就够了

ICLR 2026爆火领域VLA（Vision-Language-Action，视觉-语言-动作）全面综述来了！如果你还不了解VLA是什么，以及这个让机器人学者集体兴奋的领域进展如何，看这一篇就够了。

来自主题: AI技术研报

7172 点击 2025-10-31 14:59

从兼职工程师直接跳到CTO，他用两个月让一款 Agent 干掉60%复杂工作并放话：“代码质量与产品成功没有直接关系”！

在 AI 与自动化方面，Block 在 2025 年初推出了一个名为 “Goose” 的开源 AI Agent 框架。Goose 的设计初衷是：将大型语言模型输出与实际系统行为（如读取／写入文件、运行测试、自动化工作流）连接起来，从而不仅让模型能“聊”而且能“干活“。

来自主题: AI资讯

6711 点击 2025-10-31 14:57

首个实例理解3D重建模型！NTU&阶越提出基于实例解耦的3D重建模型，助理场景理解

现在，NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ，一个创新的端到端大型统一Transformer，首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报

5180 点击 2025-10-31 14:49

AI「上班流」首次完整曝光！不点鼠标，只写代码，PPT也当函数调

AI已经不止会写代码、画图、做PPT，它也开始「上班」了！CMU与斯坦福的研究团队首次完整追踪了AI的工作过程，发现一个惊人事实：它并不是在模仿人类，而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验，正在重构未来职场的逻辑。

来自主题: AI技术研报

6847 点击 2025-10-31 14:47

刚刚，Kimi开源新架构，开始押注线性注意力

月之暗面在这一方向有所突破。在一篇新的技术报告中，他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法，包括短文本、长文本以及强化学习的 scaling 机制。

来自主题: AI技术研报

6300 点击 2025-10-31 14:33

4倍速吊打Cursor新模型！英伟达数千GB200堆出的SWE-1.5，圆了Devin的梦！实测被曝性能“滑铁卢”？

近日，开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍，该模型专为在软件工程任务中实现高性能与高速度而设计，现已在 Windsurf 代码编辑器中开放使用。今年 7 月，Cognition 高调收购开发工具 Windsurf。

来自主题: AI资讯

6639 点击 2025-10-31 13:57