AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。

来自主题: AI技术研报
7009 点击    2025-07-07 15:46
用子模优化法为DeepResearch生成多样性查询

用子模优化法为DeepResearch生成多样性查询

用子模优化法为DeepResearch生成多样性查询

在开发DeepResearch时,生成多样化的查询 (query) 是一个关键细节。我们在开发时会在至少两处遇到这个问题。

来自主题: AI技术研报
8235 点击    2025-07-07 15:25
重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%

大模型记忆管理和优化框架是当前各大厂商争相优化的热点方向,MemOS 相比现有 OpenAI 的全局记忆在大模型记忆评测集上呈现出显著的提升,平均准确性提升超过 38.97%,Tokens 的开销进一步降低 60.95%,一举登顶记忆管理的 SOTA 框架,特别是在考验框架时序建模与检索能力的时序推理任务上,提升比例更是达到了 159%,相当震撼!

来自主题: AI技术研报
7205 点击    2025-07-07 14:44
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

机器人走出实验室、进入真实世界真正可用,远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变,远不像实验室那样干净、单一、可控。

来自主题: AI技术研报
9079 点击    2025-07-07 11:46
AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

一位肉身行为体对人工智能体的独家指南

来自主题: AI技术研报
6751 点击    2025-07-07 11:35
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展:上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构聚焦世界生成的第一步——世界探索,联合推出一个持续迭代的高质量视频数据集项目——Sekai(日语意为“世界”),服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构建一个动态且真实的世界,可供用户不受限制进行交互探索。

来自主题: AI技术研报
6203 点击    2025-07-07 11:22
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
6199 点击    2025-07-07 10:39
集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

想象这样一个场景:你是一位生物学家,手握基因表达数据,直觉告诉你某些基因之间存在调控关系,但如何科学地验证这种关系?你听说过 "因果发现" 这个词,但对于具体算法如 PC、GES 就连名字都非常陌生。

来自主题: AI技术研报
7083 点击    2025-07-07 10:22
Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

面对扩散模型推理速度慢、成本高的问题,HKUST&北航&商汤提出了全新缓存加速方案——HarmoniCa:训练-推理协同的特征缓存加速框架,突破DiT架构在部署端的速度瓶颈,成功实现高性能无损加速。

来自主题: AI技术研报
6665 点击    2025-07-06 15:05
原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。

来自主题: AI技术研报
6085 点击    2025-07-06 14:56
OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

三个前沿AI能融合成AGI吗?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型,在推理过程中动态协作,通过试错优化生成过程,有效融合群体AI智慧。

来自主题: AI技术研报
7180 点击    2025-07-06 13:06
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。

来自主题: AI技术研报
6730 点击    2025-07-06 11:54
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

那问题来了:大型语言模型(LLM)虽然语言能力惊人,但它们在语义压缩方面能做出和人类一样的权衡吗?为探讨这一问题,图灵奖得主LeCun团队,提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略,揭示了两者在压缩效率与语义保真之间的根本差异:LLM偏向极致的统计压缩,而人类更重细节与语境。

来自主题: AI技术研报
5332 点击    2025-07-06 11:17
GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

这是一篇在GitHub上获得5.3k+星标的重要技术文档,其中蕴含的洞察值得每一位AI产品开发者深度思考。

来自主题: AI技术研报
6233 点击    2025-07-06 11:04
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
6227 点击    2025-07-05 19:00
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布!巧妙构建超高质量的千万级人类偏好样本,刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数,小体积也能媲美大模型性能。

来自主题: AI技术研报
6184 点击    2025-07-05 14:00
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

这个AI让打工人「磕头」致谢。 前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。要是哪个 AI 能一键分析表格,我当场就能给它磕一个。

来自主题: AI技术研报
6378 点击    2025-07-05 13:41
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报
6089 点击    2025-07-05 13:12
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
6726 点击    2025-07-05 13:02
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
6160 点击    2025-07-05 12:46
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报
5526 点击    2025-07-05 12:33
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。

来自主题: AI技术研报
6370 点击    2025-07-05 12:10
AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

谷歌、斯坦福等陆续推出「AI科学家」,协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深,或质疑其缺乏灵感与人性温度,AI能代替人类思考吗?

来自主题: AI技术研报
7382 点击    2025-07-04 12:15
登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火?Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。

来自主题: AI技术研报
5574 点击    2025-07-04 10:57
Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

人工智能(AI),如果可以像人类一样“思考”,或许能够帮助我们理解人类的思维方式,尤其是不同心理状态(如抑郁或焦虑)的人群如何做出决策,进而为人类健康研究提供一个新视角。

来自主题: AI技术研报
5448 点击    2025-07-04 10:48
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报
7695 点击    2025-07-04 10:44
推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。

来自主题: AI技术研报
8295 点击    2025-07-04 10:36