AI资讯新闻榜单内容搜索-模型训练

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图，好像它无所不知。但假如把它“扔”进一个真实的手术室，让它用主刀医生的第一视角来判断下一步该用哪把钳子，这位“学霸”很可能当场懵圈。

来自主题: AI技术研报

8951 点击 2025-12-09 10:37

如何优化英伟达CAGRA，实现GPU建图+CPU查询，成本效率兼顾

本文为Milvus Week系列第5篇，该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报

8040 点击 2025-12-09 10:36

从分钟级等待到20倍超速：LightX2V重写AI视频生成速度上限

今年以来，开源项目LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红，单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质量视频生成，把“等几分钟出一段视频”变成“边看边出片”。

来自主题: AI技术研报

9102 点击 2025-12-08 14:46

谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架

最近，Google Research 发布了一篇 Blog《Titans + MIRAS：帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存，从而更快地工作并处理海量上下文。

来自主题: AI技术研报

9695 点击 2025-12-08 14:41

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8520 点击 2025-12-08 14:13

DeepSeek V3到V3.2的进化之路，一文看全

12 月 1 日，DeepSeek 一口气发布了两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报

8227 点击 2025-12-08 12:48

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

如今，强化学习（RL）已成为提升大语言模型（LLM）复杂推理与解题能力的关键技术范式，而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性，LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报

5548 点击 2025-12-08 10:27

近乎零成本破解模型幻觉！清华团队最新研究：逆向验证法，让 AI 停止“瞎扯”，只需先验证再作答

关于如何避免让大语言模型产生幻觉，一直以来的相关研究都非常多。

来自主题: AI技术研报

5578 点击 2025-12-08 09:47

他们让万亿参数RL学会了「省着跑」，顺便砍掉九成算力

2025年，AI大模型的竞争焦点正在发生根本性转移。

来自主题: AI技术研报

7523 点击 2025-12-08 08:57

Agent2025年终报告来了，UC伯克利、斯坦福和IBM联合发布

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷，并深度访谈了20个已经成功落地并产生价值的一线企业案例（涵盖金融、科技、医疗等领域）。试图回答一个最朴素的工程问题：一个能用的、赚钱的Agent，到底是用什么架构搭出来的？

来自主题: AI技术研报

6330 点击 2025-12-08 08:52