AI技术研报-这里有最前沿的人工智能技术解读

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

来自主题: AI技术研报

7196 点击 2025-06-20 15:23

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统，如今正被注入新的 AI 动能。随着 AI 领域掀起一场由大型语言模型（LLM）引领的生成式革命，它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力，开始重塑各领域的传统技术栈。

来自主题: AI技术研报

7672 点击 2025-06-20 11:08

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

7245 点击 2025-06-20 10:53

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

生成模型会重现识别模型的历史吗？

来自主题: AI技术研报

8000 点击 2025-06-20 09:54

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

来自主题: AI技术研报

5845 点击 2025-06-20 09:48

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

剑桥大学和范德夏尔实验室在 ICML 2024 上发表的立场论文，直接挑战了当前Agent开发的核心假设：我们一直在用错误的方式让Agent"自我改进"。

来自主题: AI技术研报

5673 点击 2025-06-20 09:39

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理？

来自主题: AI技术研报

6854 点击 2025-06-19 17:07

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

AI也有量子叠加态了？

来自主题: AI技术研报

7503 点击 2025-06-19 15:25

ChatGPT上瘾，大脑萎缩47%！MIT祭出206页92图超长报告

AI上瘾堪比「吸毒」！MIT最新研究惊人发现：长期依赖大模型，学习能力下降、大脑受损，神经连接减少47%。AI提高效率的说法，或许根本就是误解！

来自主题: AI技术研报

6442 点击 2025-06-19 15:04

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。

来自主题: AI技术研报

6478 点击 2025-06-19 12:07

斯坦福最新研究：硅谷的AI创业潮，其实是一场大型的资源错配

2025年1月到5月间，斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家，评估了104个职业中的844项具体任务。

来自主题: AI技术研报

6763 点击 2025-06-19 11:40

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

来自主题: AI技术研报

6059 点击 2025-06-19 11:31

港科广等发布首个医学世界模型！精准模拟肿瘤演化，规划治疗方案

医学世界模型（MeWM）是一种创新的AI系统，能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像，可以帮助医生在术前评估治疗效果，优化治疗方案，显著提升临床决策的准确性，为精准医疗提供了有力支持。

来自主题: AI技术研报

5801 点击 2025-06-19 11:18

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

来自主题: AI技术研报

7419 点击 2025-06-19 11:09

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

GRIT能让多模态大语言模型（MLLM）通过生成自然语言和图像框坐标结合的推理链进行「图像思维」，仅需20个训练样本即可实现优越性能！

来自主题: AI技术研报

7256 点击 2025-06-19 11:03

美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作

AI想替代谁？谁愿意被替代？北大校友的研究首次揭示数据真相！

来自主题: AI技术研报

7051 点击 2025-06-19 10:55

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

7134 点击 2025-06-19 10:47

未来「含人量」多少，决定这工作值多少钱？斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

你敢想象吗？你的工作“含人量”多少，决定你值多少钱？“含人量”是我首次创造的一个中文通俗词汇，用来转译论文核心概念“Human Agency Scale”，以后谁要引用，请注明出处是这里哈~

来自主题: AI技术研报

8094 点击 2025-06-19 10:31

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报

8591 点击 2025-06-19 10:13

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

GSPN是一种新型视觉注意力机制，通过线性扫描和稳定性-上下文条件，高效处理图像空间结构，显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接，并利用稳定性-上下文条件确保稳定的长距离上下文传播，将计算复杂度显著降低至√N量级。

来自主题: AI技术研报

6340 点击 2025-06-18 16:41

国产芯片比英伟达整体效率更高！？华为 CloudMatrix384 超节点首曝论文，跑 DeepSeek 效率超越英伟达

今年 4 月，围绕“华为芯片效率是否超越国际主流 AI 芯片和架构”的问题，网上曾引发一场激烈争论。

来自主题: AI技术研报

6653 点击 2025-06-18 16:38

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型？来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM

来自主题: AI技术研报

8226 点击 2025-06-18 15:39

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时，意味着机器人已经能够熟练使用工具，工具会“隐退”成为本体的延伸，而不再是需要刻意思考的对象。

来自主题: AI技术研报

8282 点击 2025-06-18 15:35

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？

来自主题: AI技术研报

6696 点击 2025-06-18 15:19

想知道你的LLM API被过度收费了吗？隐藏的Tokens终于可以被审计了

近年来，大型语言模型（LLM）在处理复杂任务方面取得了显著进展，尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升，往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。

来自主题: AI技术研报

6495 点击 2025-06-18 11:05

唐珺林佳燕：人工智能生成内容著作权保护路径分析

AI生成内容著作权保护困境及解决路径。本文旨在探讨人工智能生成内容的著作权保护问题，以平衡各方利益，推动著作权制度目标的实现，助力文化创意产业与智能科技的深度融合。

来自主题: AI技术研报

5962 点击 2025-06-18 10:54

逐个token太慢！大模型原生并行出token，CMU、英伟达新作Multiverse

原生并行生成不仅仅是加速，它是我们对 LLM 推理思考方式的根本转变。

来自主题: AI技术研报

8960 点击 2025-06-18 10:53

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

ZPressor能高效压缩3D高斯泼溅（3DGS）模型的多视图输入，解决其在处理密集视图时的性能瓶颈，提升渲染效率和质量。

来自主题: AI技术研报

8137 点击 2025-06-18 10:50

微软已为Agent悄然调转船头，当大厂都在卷“通用Agent”

您有没有这样的体验？一天的工作里，您可能用GPTo3写了个方案，然后切换到Cursor或者Trae里写代码，接着又打开Notion或者飞书整理文档。每个工具都挺聪明，但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码，写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报

6291 点击 2025-06-18 10:36

通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士，近年来研究领域包括3D 重建与 4D 场景和视频生成，致力于得到一种最佳的物理世界表示模型。

来自主题: AI技术研报

7272 点击 2025-06-18 10:31

AI技术研报-这里有最前沿的人工智能技术解读

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜ 斯坦福&伯克利&MIT

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

ChatGPT上瘾，大脑萎缩47%！MIT祭出206页92图超长报告

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

斯坦福最新研究：硅谷的AI创业潮，其实是一场大型的资源错配

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

港科广等发布首个医学世界模型！精准模拟肿瘤演化，规划治疗方案

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

未来「含人量」多少，决定这工作值多少钱？斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

国产芯片比英伟达整体效率更高！？华为 CloudMatrix384 超节点首曝论文，跑 DeepSeek 效率超越英伟达

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

想知道你的LLM API被过度收费了吗？隐藏的Tokens终于可以被审计了

唐珺 林佳燕：人工智能生成内容著作权保护路径分析

逐个token太慢！大模型原生并行出token，CMU、英伟达新作Multiverse

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

微软已为Agent悄然调转船头，当大厂都在卷“通用Agent”

通向世界模型关键一步：EX-4D来了，实现单目视频到自由视角生成

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

唐珺林佳燕：人工智能生成内容著作权保护路径分析