AI技术研报-这里有最前沿的人工智能技术解读

别再卷数据了，LLM也怕「过劳死」！CMU等揭秘灾难性过度训练

颠覆LLM预训练认知：预训练token数越多，模型越难调！CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。

来自主题: AI技术研报

7432 点击 2025-05-03 15:40

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

超越YOLOv3、Faster-RCNN，首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦！

来自主题: AI技术研报

6786 点击 2025-05-03 15:24

AI可以破解AI生成的验证码吗？

技术在进化，验证码也该变得更有人情味一点。

来自主题: AI技术研报

6988 点击 2025-05-03 15:04

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法

扩散模型（Diffusion Models, DMs）如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力，它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。

来自主题: AI技术研报

6362 点击 2025-05-03 14:52

Claude网页版接入MCP！10款应用一键调用，开发者30分钟可创建新集成

MCP逐渐行业标准，提出者Anthropic也官宣了Claude两项重大的针对性更新——

来自主题: AI技术研报

9128 点击 2025-05-02 20:56

浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误

当前，多模态大模型驱动的图形用户界面（GUI）智能体在自动化手机、电脑操作方面展现出巨大潜力。然而，一些现有智能体更类似于「反应式行动者」（Reactive Actors），主要依赖隐式推理，面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报

7094 点击 2025-05-02 20:21

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

南加州大学团队只用9美元，就能在数学基准测试AIME 24上实现超过20%的推理性能提升，效果好得离谱！而其核心技术只需LoRA+强化学习，用极简路径实现超高性价比后训练。

来自主题: AI技术研报

7237 点击 2025-05-02 19:57

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

大模型竞技场的可信度，再次被锤。

来自主题: AI技术研报

6991 点击 2025-05-02 17:56

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。

来自主题: AI技术研报

7491 点击 2025-05-02 15:32

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能机器之心 2025年05月02日 12:39 北京

LoRA 中到底存在多少参数冗余？这篇创新研究介绍了 LoRI 技术，它证明即使大幅减少 LoRA 的可训练参数，模型性能依然保持强劲。

来自主题: AI技术研报

7175 点击 2025-05-02 15:23

CVPR 2025 | CV 微调卷出天际，Mona：我小、我强、我省资源

Mona（Multi-cognitive Visual Adapter）是一种新型视觉适配器微调方法，旨在打破传统全参数微调（full fine-tuning）在视觉识别任务中的性能瓶颈。

来自主题: AI技术研报

6806 点击 2025-05-02 14:17

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。

来自主题: AI技术研报

7382 点击 2025-05-02 14:03

不要思考过程，推理模型能力能够更强丨UC伯克利等最新研究

其实……不用大段大段思考，推理模型也能有效推理！

来自主题: AI技术研报

6766 点击 2025-05-02 13:49

Windsurf团队关于Agent的认知，相当精彩

这段时间 “Agent” 成了热词，开会、聊天、朋友圈，大家都在聊。但每个人说的 “Agent” 其实都不一样，听多了反而更迷糊：究竟什么是 Agent？和我们熟悉的生成式 AI 有什么不同？这是我目前见过最清晰解释 Agent 的文章。

来自主题: AI技术研报

8219 点击 2025-05-02 10:46

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。在普特南测试上，新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题，为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。

来自主题: AI技术研报

7875 点击 2025-05-01 22:52

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

来自英伟达和UIUC的华人团队提出一种高效训练方法，将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录！基于Llama3.1-Instruct打造的UltraLong-8B模型，不仅在长上下文基准测试中表现卓越，还在标准任务中保持顶尖竞争力。

来自主题: AI技术研报

6747 点击 2025-05-01 13:54

只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍

在人工智能领域，语言模型的发展日新月异，推理能力作为语言模型的核心竞争力之一，一直是研究的焦点，许多的 AI 前沿人才对 AI 推理的效率进行研究。

来自主题: AI技术研报

8145 点击 2025-04-30 18:40

当购物用上大模型！阿里妈妈首发世界知识大模型，破解两大推荐难题

在推荐、广告场景，如何利用好大模型的能力？这是个很有挑战的命题。

来自主题: AI技术研报

7063 点击 2025-04-30 18:19

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

医疗大模型知识覆盖度首次被精准量化！

来自主题: AI技术研报

8247 点击 2025-04-30 17:34

CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍

训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。

来自主题: AI技术研报

6248 点击 2025-04-30 16:03

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

随着大语言模型 (LLM) 技术的迅猛发展，基于 LLM 的智能智能体在客户服务、内容创作、数据分析甚至医疗辅助等多个行业领域得到广泛应用。

来自主题: AI技术研报

7122 点击 2025-04-30 15:05

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读：

来自主题: AI技术研报

7963 点击 2025-04-30 08:50

上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025

在以 transformer 模型为基础的大模型中，键值缓存虽然用以存代算的思想显著加速了推理速度，但在长上下文场景中成为了存储瓶颈。为此，本文的研究者提出了 MILLION，一种基于乘积量化的键值缓存压缩和推理加速设计。

来自主题: AI技术研报

7923 点击 2025-04-30 08:32

AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实

在无数科幻电影中，增强现实（AR）通过在人们的眼前叠加动画、文字、图形等可视化信息，让人获得适时的、超越自身感知能力的信息。

来自主题: AI技术研报

7244 点击 2025-04-29 16:32

如何打造TTRL测试时强化学习+Memory的Agent，做经验时代AI的主人。| 最新

AI能像人类一样不断从经验中学习、进化，而不仅仅依赖于人工标注的数据？测试时强化学习(TTRL)与记忆系统的结合正在开启这一全新可能！

来自主题: AI技术研报

7960 点击 2025-04-29 16:24

1亿图文对！格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA

新的亿级大规模图文对数据集来了，CLIP达成新SOTA！

来自主题: AI技术研报

6151 点击 2025-04-29 15:47

首个大模型全链路安全综述！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面梳理

随着人工智能技术迅猛发展，大模型（如GPT-4、文心一言等）正逐步渗透至社会生活的各个领域，从医疗、教育到金融、政务，其影响力与日俱增。

来自主题: AI技术研报

7443 点击 2025-04-29 15:27

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

5964 点击 2025-04-29 14:56

AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭

尽管LLM看似能够进行流畅推理和问题解答，但它们背后的思维链其实只是复杂的统计模式匹配，而非真正的推理能力。AI模型仅仅通过海量数据和经验法则来生成响应，而不是通过深刻的世界模型和逻辑推理来做决策。

来自主题: AI技术研报

7890 点击 2025-04-29 09:52

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

大模型之战烽火正酣，谷歌Gemini 2.5 Pro却强势逆袭！Gemini Flash预训练负责人亲自揭秘，深挖Gemini预训练的关键技术，看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

来自主题: AI技术研报

7846 点击 2025-04-29 09:43

AI技术研报-这里有最前沿的人工智能技术解读

别再卷数据了，LLM也怕「过劳死」！CMU等揭秘灾难性过度训练

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

AI可以破解AI生成的验证码吗？

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法

Claude网页版接入MCP！10款应用一键调用，开发者30分钟可创建新集成

浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能 机器之心 2025年05月02日 12:39 北京

CVPR 2025 | CV 微调卷出天际，Mona：我小、我强、我省资源

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

不要思考过程，推理模型能力能够更强丨UC伯克利等最新研究

Windsurf团队关于Agent的认知，相当精彩

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍

当购物用上大模型！阿里妈妈首发世界知识大模型，破解两大推荐难题

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025

AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实

如何打造TTRL测试时强化学习+Memory的Agent，做经验时代AI的主人。| 最新

1亿图文对！格灵深瞳开源RealSyn数据集，CLIP多任务性能刷新SOTA

首个大模型全链路安全综述 ！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面梳理

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能机器之心 2025年05月02日 12:39 北京

首个大模型全链路安全综述！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面梳理