AI资讯新闻榜单内容搜索-LLM

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9111 点击 2025-11-01 09:23

让 AI 开口「像人」：最难的不是智能，是「嗓音」

Voice Agent 赛道正在爆发，但它迫切需要一个能让对话真正「流动起来」的底层引擎，一个能撑起下一代交互体验的 TTS 模型。竞争的焦点，已经从 LLM 的「大脑」，延伸到了 TTS 的「嗓音」。谁掌握嗓音，谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型，似乎正是一个专为解决这些痛点而来的答案。

来自主题: AI资讯

8816 点击 2025-10-31 15:35

Eino ADK：一文搞定 AI Agent 核心设计模式，从 0 到 1 搭建智能体系统

当大语言模型突破了 “理解与生成” 的瓶颈，Agent 迅速成为 AI 落地的主流形态。从智能客服到自动化办公，几乎所有场景都需要 Agent 来承接 LLM 能力、执行具体任务。

来自主题: AI技术研报

9408 点击 2025-10-31 10:24

人大、清华DeepAnalyze，让LLM化身数据科学家

来自人大和清华的研究团队发布了 DeepAnalyze，首个面向自主数据科学的 agentic LLM。DeepAnalyze引起了社区内广泛讨论，一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。

来自主题: AI技术研报

11246 点击 2025-10-31 09:52

苹果提出新型反向传播：一台iPhone 15 Pro Max就能微调LLM

用 iPhone 本地跑大模型已经不是新鲜事了，但能不能在 iPhone 上微调模型呢？

来自主题: AI技术研报

9819 点击 2025-10-30 17:27

中移动九天团队MultiPL-MoE：全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

大语言模型（LLM）虽已展现出卓越的代码生成潜力，却依然面临着一道艰巨的挑战：如何在有限的计算资源约束下，同步提升对多种编程语言的理解与生成能力，同时不损害其在主流语言上的性能？

来自主题: AI技术研报

8275 点击 2025-10-30 16:23

仅需10%思维链标注，等同全量性能！计算所发布推理监督新范式

大语言模型（LLMs）推理能力近年来快速提升，但传统方法依赖大量昂贵的人工标注思维链。中国科学院计算所团队提出新框架PARO，通过让模型学习固定推理模式自动生成思维链，只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的领域，为高效推理监督提供了全新思路。

来自主题: AI技术研报

6456 点击 2025-10-29 10:15

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7337 点击 2025-10-29 09:53

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

7776 点击 2025-10-28 09:26

拜拜了GUI！中科院团队“LLM友好”计算机使用接口来了

大模型Agent帮你自动操作电脑，理想很丰满，现实却骨感。

来自主题: AI技术研报

7807 点击 2025-10-27 16:56