AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
让 AI 开口「像人」:最难的不是智能,是「嗓音」

让 AI 开口「像人」:最难的不是智能,是「嗓音」

让 AI 开口「像人」:最难的不是智能,是「嗓音」

Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。

来自主题: AI资讯
7731 点击    2025-10-31 15:35
重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

还在忍受方言听不懂、跨省业务推进难?联通直接放出「云+AI」大招,把这些通信顽疾一锅端!本文为你揭秘,运营商如何用科技智慧破局,打开信息「黑匣子」,让效率飙升!

来自主题: AI资讯
7148 点击    2025-10-31 15:30
大模型公司不搞浏览器搞Agent,实测找到原因了

大模型公司不搞浏览器搞Agent,实测找到原因了

大模型公司不搞浏览器搞Agent,实测找到原因了

闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 如果Agent能操作命令行,就有了与整个计算机系统交互的能力。 也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。 这种产品终于有雏形了

来自主题: AI资讯
7968 点击    2025-10-31 15:17
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

来自主题: AI技术研报
7034 点击    2025-10-31 15:00
最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

来自主题: AI技术研报
7172 点击    2025-10-31 14:59
从兼职工程师直接跳到CTO,他用两个月让一款 Agent 干掉60%复杂工作并放话:“代码质量与产品成功没有直接关系”!

从兼职工程师直接跳到CTO,他用两个月让一款 Agent 干掉60%复杂工作并放话:“代码质量与产品成功没有直接关系”!

从兼职工程师直接跳到CTO,他用两个月让一款 Agent 干掉60%复杂工作并放话:“代码质量与产品成功没有直接关系”!

在 AI 与自动化方面,Block 在 2025 年初推出了一个名为 “Goose” 的开源 AI Agent 框架。Goose 的设计初衷是:将大型语言模型输出与实际系统行为(如读取/写入文件、运行测试、自动化工作流)连接起来,从而不仅让模型能“聊”而且能“干活“。

来自主题: AI资讯
6711 点击    2025-10-31 14:57
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报
5180 点击    2025-10-31 14:49
AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI已经不止会写代码、画图、做PPT,它也开始「上班」了!CMU与斯坦福的研究团队首次完整追踪了AI的工作过程,发现一个惊人事实:它并不是在模仿人类,而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验,正在重构未来职场的逻辑。

来自主题: AI技术研报
6847 点击    2025-10-31 14:47
刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。

来自主题: AI技术研报
6300 点击    2025-10-31 14:33
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

近日,开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍,该模型专为在软件工程任务中实现高性能与高速度而设计,现已在 Windsurf 代码编辑器中开放使用。今年 7 月,Cognition 高调收购开发工具 Windsurf。

来自主题: AI资讯
6639 点击    2025-10-31 13:57