AI技术研报-这里有最前沿的人工智能技术解读

天文预测新SOTA！紫东太初&国家天文台联手攻克恒星耀发难题

还记得刘慈欣在《全频带阻塞干扰》中描绘的耀斑爆发吗？

来自主题: AI技术研报

5912 点击 2025-05-13 15:22

文生图进入R1时代：港中文MMLab发布T2I-R1，让AI绘画“先推理再下笔”

“先推理、再作答”，语言大模型的Thinking模式，现在已经被拓展到了图片领域。

来自主题: AI技术研报

6782 点击 2025-05-13 15:02

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

当训练成本飙升、数据枯竭，如何继续激发大模型潜能？

来自主题: AI技术研报

5945 点击 2025-05-13 14:48

一句指令，无限宇宙！Matrix-Game硬核上线，秒杀SOTA

「矩阵」不再是科幻！Matrix-Game震撼来袭，突破边界带来交互式引擎。只需一句话，沙漠森林等任意场景可控生成，动作丝滑操控，360°视角自由切换，沉浸感爆棚。

来自主题: AI技术研报

7054 点击 2025-05-13 14:34

连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

开启「分步思考」新范式。

来自主题: AI技术研报

7026 点击 2025-05-13 09:44

ICML 2025 | 长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。

来自主题: AI技术研报

4931 点击 2025-05-13 08:54

CMU朱俊彦等上新LEGOGPT，一句话就能搭乐高，网友：复杂零件行不行？

AI 不允许有人不会搭乐高。

来自主题: AI技术研报

7954 点击 2025-05-12 16:14

谷歌发76页智能体白皮书！你的「AI替身」已上线

谷歌最新发布的76页AI智能体白皮书，深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划，能够完成复杂任务并做出高级决策。从智能体运维（AgentOps）到多智能体协作，这份白皮书为AI智能体指明了方向。

来自主题: AI技术研报

7422 点击 2025-05-12 15:49

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

来自主题: AI技术研报

5943 点击 2025-05-12 15:27

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

5895 点击 2025-05-12 15:18

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报

9263 点击 2025-05-12 14:59

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

7195 点击 2025-05-12 14:51

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源丨字节北大联合发布

可控图片生成，如今已经不是什么新鲜事。甚至也不需要复杂的提示词，用户通过简单的文本描述，就能快速生成符合个人需求的创意图像。

来自主题: AI技术研报

7901 点击 2025-05-12 14:07

全网惊了！陶哲轩带AI下场，33分钟「盲证」数学

菲尔兹奖得主陶哲轩再放大招，仅数天时间，开源的概念验证工具借助Copilot迭代至2.0版本。而在最新视频中，他甚至用AI在33分钟「盲做」形式化一页证明，效率惊人。

来自主题: AI技术研报

9142 点击 2025-05-12 12:24

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

近年来，基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展，但由于上下文时间窗口受限，生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报

7943 点击 2025-05-12 11:05

DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

长思维链让大模型具备了推理能力，但如果过度思考，就有可能成为负担。

来自主题: AI技术研报

7988 点击 2025-05-12 10:45

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。

来自主题: AI技术研报

9052 点击 2025-05-12 10:31

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。

来自主题: AI技术研报

4798 点击 2025-05-12 10:22

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

本文详细介绍了斯坦福大学最新提出的"以弱驭强"（W4S）范式，这一创新方法通过训练轻量级的弱模型来优化强大语言模型的工作流。核心亮点包括：

来自主题: AI技术研报

7954 点击 2025-05-12 10:10

只有通过海量测试才能抓住泛化性的本质吗？

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

来自主题: AI技术研报

7823 点击 2025-05-11 14:35