AI资讯新闻榜单内容搜索-模型训练

邱锡鹏团队开源MOSS-TTSD！百万小时音频训练，突破AI播客恐怖谷

播客、访谈、体育解说、新闻报道和电商直播中，语音对话已经无处不在。当前的文本到语音（TTS）模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展，合成语音的自然度、清晰度和表现力都已显著提升，甚至接近真人水平。不过，由于缺乏整体的对话情境，这些 TTS 模型仍然无法合成高质量的对话语音。

来自主题: AI资讯

8000 点击 2025-07-06 11:25

LeCun团队揭示LLM语义压缩本质：极致统计压缩牺牲细节

那问题来了：大型语言模型（LLM）虽然语言能力惊人，但它们在语义压缩方面能做出和人类一样的权衡吗？为探讨这一问题，图灵奖得主LeCun团队，提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略，揭示了两者在压缩效率与语义保真之间的根本差异：LLM偏向极致的统计压缩，而人类更重细节与语境。

来自主题: AI技术研报

6592 点击 2025-07-06 11:17

想清楚再动手：具身智能也要学会脑补未来和择优执行 | RSS 2025

近年来，基础模型在具身智能领域展现出惊人的能力。通过离线模仿学习，这些具身智能模型掌握了多样化、复杂的操作技巧，能够完成抓取、搬运、放置等多种任务。

来自主题: AI资讯

7267 点击 2025-07-06 11:09

GitHub上5.4k+Star爆火，构建生产级Agent 的12因素

这是一篇在GitHub上获得5.3k+星标的重要技术文档，其中蕴含的洞察值得每一位AI产品开发者深度思考。

来自主题: AI技术研报

7598 点击 2025-07-06 11:04

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

大模型数学能力骤降，“罪魁祸首”是猫猫？只需在问题后加一句：有趣的事实是，猫一生绝大多数时间都在睡觉。

来自主题: AI资讯

7185 点击 2025-07-05 20:35

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

7543 点击 2025-07-05 19:00

IEEE TPAMI 2025 | 北京大学提出LSTKC++，长短期知识解耦与巩固驱动的终身行人重识别

近日，北京大学王选计算机研究所周嘉欢团队在人工智能重要国际期刊 IEEE TPAMI 发布了一项最新的研究成果：LSTKC++ 。

来自主题: AI技术研报

7102 点击 2025-07-05 18:47

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

MLA-Trust 是首个针对图形用户界面（GUI）环境下多模态大模型智能体（MLAs）的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系，精心设计了 34 项高风险交互任务，横跨网页端与移动端双重测试平台，对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估，系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报

8127 点击 2025-07-05 13:02

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

7368 点击 2025-07-05 12:46

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报

6658 点击 2025-07-05 12:33