AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。

来自主题: AI技术研报
8139 点击    2025-09-16 11:23
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起伏,肩膀与手臂有节奏地带动气氛。

来自主题: AI技术研报
10401 点击    2025-09-16 11:14
想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解

随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动化任务至关重要。

来自主题: AI技术研报
6774 点击    2025-09-16 10:19
DeepMind哈萨比斯最新认知都在这里了

DeepMind哈萨比斯最新认知都在这里了

DeepMind哈萨比斯最新认知都在这里了

Nano Banana如此火爆,让谷歌DeepMind CEO哈萨比斯在最新访谈中又一次聊起了AGI。Nano Banana当然不是AGI,但它也体现了哈萨比斯认为AGI系统所需的一些关键能力和特征。

来自主题: AI技术研报
9029 点击    2025-09-16 10:04
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报
8534 点击    2025-09-16 10:02
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报
6883 点击    2025-09-16 10:01
AI解数学题只靠最后一个token

AI解数学题只靠最后一个token

AI解数学题只靠最后一个token

最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。

来自主题: AI技术研报
7452 点击    2025-09-16 10:00
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架

告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架

告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架

为应对这些挑战,来自华为诺亚方舟实验室,德国达姆施塔特工业大学,英国伦敦大学学院,帝国理工学院和牛津大学的研究者们联合推出了 Ark —— 一个基于 Python 的机器人开发框架,支持快速原型构建,并可便捷地在仿真和真实机器人系统上部署新算法。

来自主题: AI技术研报
7694 点击    2025-09-16 09:59
OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训

来自主题: AI技术研报
5461 点击    2025-09-16 09:37
刚刚,Anthropic 公布了99%的人不知道的 Claude使用真相

刚刚,Anthropic 公布了99%的人不知道的 Claude使用真相

刚刚,Anthropic 公布了99%的人不知道的 Claude使用真相

就在刚刚,Anthropic 发布了一报告,名字听上去有点学术腔——《人类经济指数》。 但别被这个名字骗了,它是一份非常具体、非常当下的观察笔记,可以说和我们息息相关。 原文链接:https://ww

来自主题: AI技术研报
9000 点击    2025-09-15 23:12
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

让AI生成的图像更符合人类精细偏好,在32块H20上训练10分钟就能收敛。腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。

来自主题: AI技术研报
7308 点击    2025-09-15 15:51
用光学生成图像,几乎0耗电,浙大校友一作研究登Nature

用光学生成图像,几乎0耗电,浙大校友一作研究登Nature

用光学生成图像,几乎0耗电,浙大校友一作研究登Nature

见过省电的模型,但这么省电的,还是第一次见。 在 《自然》 杂志发表的一篇论文中,加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。

来自主题: AI技术研报
7616 点击    2025-09-15 15:47
a16z实测报告:哪些AI办公产品真的能帮你干活?

a16z实测报告:哪些AI办公产品真的能帮你干活?

a16z实测报告:哪些AI办公产品真的能帮你干活?

今天咱们来聊一下,哪些AI办公产品真的能帮你干活?

来自主题: AI技术研报
9396 点击    2025-09-15 10:54
研究人员打造带有AI同行评审的预印本平台,有望革新现有科学出版方式

研究人员打造带有AI同行评审的预印本平台,有望革新现有科学出版方式

研究人员打造带有AI同行评审的预印本平台,有望革新现有科学出版方式

在讨论 AGI 或者通用机器人定义时,人们往往会自然联想到一些直观的衡量标准,比如 AI 能否解出高考题、在国际数学奥林匹克(IMO,International Mathematical Olympiad)上获得金牌,或者机器人能否胜任家务。

来自主题: AI技术研报
6720 点击    2025-09-15 10:26
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。

来自主题: AI技术研报
7082 点击    2025-09-15 08:39
谢菲尔德大学:模型幻觉的数学必然性

谢菲尔德大学:模型幻觉的数学必然性

谢菲尔德大学:模型幻觉的数学必然性

幻觉不是 bug,是数学上的宿命。 谢菲尔德大学的最新研究证明,大语言模型的幻觉问题在数学上不可避免—— 即使用完美的训练数据也无法根除。 而更为扎心的是,OpenAI 提出的置信度阈值方案虽能减少幻

来自主题: AI技术研报
8894 点击    2025-09-15 08:34
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报
6955 点击    2025-09-15 08:33
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报
7957 点击    2025-09-15 08:30
为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。

来自主题: AI技术研报
8319 点击    2025-09-14 21:34
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

本周五,Meta AI 团队正式发布了 MobileLLM-R1。 这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

来自主题: AI技术研报
8394 点击    2025-09-14 11:16
腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破

腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破

腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破

图检索增强生成(GraphRAG)已成为大模型解决复杂领域知识问答的重要解决方案之一。然而,当前学界和开源界的方案都面临着三大关键痛点: 开销巨大:通过 LLM 构建图谱及社区,Token 消耗大,耗

来自主题: AI技术研报
8281 点击    2025-09-14 10:45
藏师傅教你用 Lovart x Seedream4.0 搞定终极自媒体神器

藏师傅教你用 Lovart x Seedream4.0 搞定终极自媒体神器

藏师傅教你用 Lovart x Seedream4.0 搞定终极自媒体神器

Lovart(lovart.ai/)速度是真的快,前几天发现他们第一时间就上线了 Seedream 4.0 模型,而且在前天开启了超级优惠活动: 9.10-9.20 Nano Banana 和 Seedream 4.0 模型免费用不扣积分

来自主题: AI技术研报
9404 点击    2025-09-13 16:45
如何为LLM智能体编写工具?Anthropic官方教程来了

如何为LLM智能体编写工具?Anthropic官方教程来了

如何为LLM智能体编写工具?Anthropic官方教程来了

智能体(Agent)时代,工具已不再只是传统 API 或函数接口的简单封装,而是决定智能体能否高效完成任务的关键。 为了让智能体真正释放潜力,我们需要重新思考工具开发的方式。传统软件开发依赖确定性逻辑,而智能体是非确定性的,它们在相同输入下可能产生不同输出,这意味着为智能体设计工具需要新的范式。

来自主题: AI技术研报
7075 点击    2025-09-13 14:38
刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

谷歌最新71页论文震惊科研界:AI不止能写代码,还能像科学家一样提出新方法、跑实验,甚至在六大领域全面超越专家!过去要花几个月的探索,如今几小时就能完成,科研节奏

来自主题: AI技术研报
10957 点击    2025-09-13 14:07
大模型智能体不止能写代码,还能被训练成白帽黑客

大模型智能体不止能写代码,还能被训练成白帽黑客

大模型智能体不止能写代码,还能被训练成白帽黑客

当人们还在惊叹大模型能写代码、能自动化办公时,它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。

来自主题: AI技术研报
5702 点击    2025-09-12 11:36
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。

来自主题: AI技术研报
7657 点击    2025-09-12 11:05