AI技术研报-这里有最前沿的人工智能技术解读

Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型

来自主题: AI技术研报

8905 点击 2025-07-07 14:19

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

是否可以在不依赖额外监督的前提下，仅通过无监督学习让模型学会思考？答案有了。

来自主题: AI技术研报

8825 点击 2025-07-07 13:54

复杂空间指令也能秒懂？RoboRefer 让机器人理解推理空间，开放世界也能精准行动！

机器人走出实验室、进入真实世界真正可用，远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变，远不像实验室那样干净、单一、可控。

来自主题: AI技术研报

9443 点击 2025-07-07 11:46

AI智能体开发指南（2025版）

一位肉身行为体对人工智能体的独家指南

来自主题: AI技术研报

7987 点击 2025-07-07 11:35

750城市+5000小时第一人称视频，上海AI Lab开源面向世界探索高质量视频数据集

现在，国内研究机构就从数据基石的角度出发，拿出了还原真实动态世界的新进展：上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构聚焦世界生成的第一步——世界探索，联合推出一个持续迭代的高质量视频数据集项目——Sekai（日语意为“世界”），服务于交互式视频生成、视觉导航、视频理解等任务，旨在利用图像、文本或视频构建一个动态且真实的世界，可供用户不受限制进行交互探索。

来自主题: AI技术研报

7496 点击 2025-07-07 11:22

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

大语言模型（LLM）在标准编程基准测试（如 HumanEval,Livecodebench）上已经接近 “毕业”，但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力？

来自主题: AI技术研报

7380 点击 2025-07-07 10:39

集成20+先进算法，优于GPT-4o，自主因果分析智能体来了

想象这样一个场景：你是一位生物学家，手握基因表达数据，直觉告诉你某些基因之间存在调控关系，但如何科学地验证这种关系？你听说过 "因果发现" 这个词，但对于具体算法如 PC、GES 就连名字都非常陌生。

来自主题: AI技术研报

8326 点击 2025-07-07 10:22

Diffusion约2倍无损加速！训练-推理协同的缓存学习框架来了｜ HKUST&北航&商汤

面对扩散模型推理速度慢、成本高的问题，HKUST&北航&商汤提出了全新缓存加速方案——HarmoniCa：训练-推理协同的特征缓存加速框架，突破DiT架构在部署端的速度瓶颈，成功实现高性能无损加速。

来自主题: AI技术研报

7985 点击 2025-07-06 15:05

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

7123 点击 2025-07-06 14:56

OAI/谷歌/DeepSeek首次合体「AI梦之队」！战力飙升30%，碾压一切单模型

三个前沿AI能融合成AGI吗？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型，在推理过程中动态协作，通过试错优化生成过程，有效融合群体AI智慧。

来自主题: AI技术研报

8732 点击 2025-07-06 13:06

华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

大模型越来越大，通用能力越来越强，但一遇到数学、科学、逻辑这类复杂问题，还是常“翻车”。为破解这一痛点，华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林（Forest-of-Thought，FoT）。

来自主题: AI技术研报

7741 点击 2025-07-06 11:54

LeCun团队揭示LLM语义压缩本质：极致统计压缩牺牲细节

那问题来了：大型语言模型（LLM）虽然语言能力惊人，但它们在语义压缩方面能做出和人类一样的权衡吗？为探讨这一问题，图灵奖得主LeCun团队，提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略，揭示了两者在压缩效率与语义保真之间的根本差异：LLM偏向极致的统计压缩，而人类更重细节与语境。

来自主题: AI技术研报

6461 点击 2025-07-06 11:17

GitHub上5.4k+Star爆火，构建生产级Agent 的12因素

这是一篇在GitHub上获得5.3k+星标的重要技术文档，其中蕴含的洞察值得每一位AI产品开发者深度思考。

来自主题: AI技术研报

7442 点击 2025-07-06 11:04

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

7400 点击 2025-07-05 19:00

IEEE TPAMI 2025 | 北京大学提出LSTKC++，长短期知识解耦与巩固驱动的终身行人重识别

近日，北京大学王选计算机研究所周嘉欢团队在人工智能重要国际期刊 IEEE TPAMI 发布了一项最新的研究成果：LSTKC++ 。

来自主题: AI技术研报

6960 点击 2025-07-05 18:47

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布！巧妙构建超高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲美大模型性能。

来自主题: AI技术研报

7802 点击 2025-07-05 14:00

10分钟搞定Excel世锦赛难题！首个超越人类Excel Agent，网友：想给它磕一个

这个AI让打工人「磕头」致谢。前段时间，我们报道了 5 款大模型参加了今年山东高考的事儿，为了弄清楚各大模型在 9 个科目中的具体表现，我们对着测评明细表挨个儿分析，搞得狼狈又崩溃。要是哪个 AI 能一键分析表格，我当场就能给它磕一个。

来自主题: AI技术研报

7179 点击 2025-07-05 13:41

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题，从训练数据和模型结构两方面，系统性地分析了如何在MLLM训练中维持纯语言能力，并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报

7833 点击 2025-07-05 13:12

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

MLA-Trust 是首个针对图形用户界面（GUI）环境下多模态大模型智能体（MLAs）的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系，精心设计了 34 项高风险交互任务，横跨网页端与移动端双重测试平台，对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估，系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报

8001 点击 2025-07-05 13:02

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

7237 点击 2025-07-05 12:46

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报

6515 点击 2025-07-05 12:33

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8074 点击 2025-07-05 12:10

AI科学家组团搞科研，爆肝万字报告震惊医学家！Nature独刊揭秘细节

谷歌、斯坦福等陆续推出「AI科学家」，协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深，或质疑其缺乏灵感与人性温度，AI能代替人类思考吗？

来自主题: AI技术研报

8875 点击 2025-07-04 12:15

登上热搜！Prompt不再是AI重点，新热点是Context Engineering

最近「上下文工程」有多火？Andrej Karpathy 为其打 Call，Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首，还登上了知乎热搜榜。

来自主题: AI技术研报

7031 点击 2025-07-04 10:57

Nature研究遭质疑：像人类一样思考的AI，竟有点“荒谬”？

人工智能（AI），如果可以像人类一样“思考”，或许能够帮助我们理解人类的思维方式，尤其是不同心理状态（如抑郁或焦虑）的人群如何做出决策，进而为人类健康研究提供一个新视角。

来自主题: AI技术研报

6064 点击 2025-07-04 10:48

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码（RoPE）及其变体因其长上下文处理能力而被广泛采用，但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报

8773 点击 2025-07-04 10:44

推理AI致命弱点，大模型变「杠精」！被带偏后死不悔改

DeepMind新研究揭示了当与推理无关的想法，被直接注入到模型的推理过程中时，它们却难以恢复，而且越大的模型越难恢复。

来自主题: AI技术研报

8866 点击 2025-07-04 10:36

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了"，这些文章认为随着模型变得越来越智能，精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论：prompt不仅没有死，反而是理解大模型最重要的科学工具。

来自主题: AI技术研报

7938 点击 2025-07-04 09:55

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

8310 点击 2025-07-04 09:44

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

当推理链从3步延伸到50+步，幻觉率暴增10倍；反思节点也束手无策。

来自主题: AI技术研报

8378 点击 2025-07-04 09:35