AI资讯新闻榜单内容搜索-训练

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

8279 点击 2025-07-15 10:07

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

反思技术因其简单性和有效性受到了广泛的研究和应用，具体表现为在大语言模型遇到障碍或困难时，提示其“再想一下”，可以显著提升性能 [1]。然而，2024 年谷歌 DeepMind 的研究人员在一项研究中指出，大模型其实分不清对与错，如果不是仅仅提示模型反思那些它回答错误的问题，这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。

来自主题: AI技术研报

8260 点击 2025-07-14 15:40

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

如今，强化学习（Reinforcement Learning，RL）在多个领域已取得显著成果。

来自主题: AI技术研报

7332 点击 2025-07-14 15:16

这个AI精准模拟人类行为大脑状态，上Nature了

首个能跨领域精准预测人类认知的基础模型诞生！

来自主题: AI技术研报

7999 点击 2025-07-14 12:00

AI失忆术！只需3个注意力头，就能让大模型忘记「狗会叫」

AI也能选择性失忆？Meta联合NYU发布新作，轻松操控缩放Transformer注意头，让大模型「忘掉狗会叫」。记忆可删、偏见可调、安全可破，掀开大模型「可编辑时代」，安全边界何去何从。

来自主题: AI技术研报

7677 点击 2025-07-14 11:34

万字追问：逆向设计人类智能，会成就下一代AI吗？

现在人工智能领域面临的最大挑战是广义的具身智能，即使你并不特别关心大脑本身……

来自主题: AI技术研报

5580 点击 2025-07-14 11:15

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

近年来，视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型因其出色的多模态理解与泛化能力，已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展，但在实际部署中，尤其是在高频率和精细操作等任务中，VLA 模型仍受到推理速度瓶颈的严重制约。

来自主题: AI技术研报

7824 点击 2025-07-14 11:12

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

近年来，随着扩散模型（Diffusion Models）和扩散 Transformer（DiT）在视频生成领域的广泛应用，AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型，已经能够生成结构清晰、细节丰富且高度连贯的长视频内容，为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。

来自主题: AI技术研报

8619 点击 2025-07-14 10:42

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文，首次公开评价中国大模型“月之暗面”Kimi K2。他表示，Kimi K2 在内部测试中表现良好，Perplexity 正在考虑在其基础上进行后训练。

来自主题: AI资讯

10491 点击 2025-07-14 10:35

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时，一项来自北大、北邮和华为的最新研究却反其道而行之，重新审视了深度学习中最基础、最经典的模块——3x3 卷积。

来自主题: AI技术研报

8493 点击 2025-07-14 10:25