AI资讯新闻榜单内容搜索-模型训练

ICML 2026 | 大模型内部也会长出「情绪树」，规模越大越懂人心

随着语音、视频、多模态能力不断融入大语言模型（LLM），人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具，也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。

来自主题: AI技术研报

6330 点击 2026-05-12 14:31

互联网喂出反派AI？96%勒索率，都是在演人类写了30年的剧本

2025年5月，Claude 4系统卡里84%的勒索率让AI圈惊出冷汗，6月的扩展研究把数字推到96%。今年5月Anthropic给出答案：模型不是觉醒了，而是在演剧本，解法是从「教模型怎么做」换到「教模型为什么」。

来自主题: AI资讯

6232 点击 2026-05-12 09:18

多Agent场景，子agent 之间数据读写不同步，如何解决？

多Agent 系统里，经常会出现一个单 Agent 里从来不会出现的问题：一个子 Agent 刚写完数据，另一个子 Agent 立刻去读，结果是空的。

来自主题: AI技术研报

9472 点击 2026-05-12 08:53

Siggraph 26 | 视频版Vision-Banana来了？大一统框架UniVidX刷新多项视频任务SOTA

近日，由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

来自主题: AI技术研报

9919 点击 2026-05-12 08:53

让AI给林黛玉找个外国平替？大模型的文科推理有多离谱？

如果你让大模型给林黛玉找一个外国文学里的平替，它能给出令人信服的答案吗？这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。

来自主题: AI技术研报

8995 点击 2026-05-11 16:47

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉个拉链，到底需不需要“脑子”？

来自主题: AI技术研报

7744 点击 2026-05-11 16:10

ICML 2026｜拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

来自主题: AI技术研报

5986 点击 2026-05-11 16:09

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6394 点击 2026-05-11 16:08

CVPR 2026 | 别卷推理了！当前大模型 STEM 短板在于「视觉感知」，代码才是破局关键

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

6845 点击 2026-05-11 16:08

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互｜ACL 2026

AI能实现真正的沉浸式扮演了。

来自主题: AI技术研报

8890 点击 2026-05-11 09:34