AI技术研报-这里有最前沿的人工智能技术解读

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

9093 点击 2025-08-08 11:22

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

近日，一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究，提出了一种名为「SWE-Swiss」的完整「配方」，旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B，在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率，在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报

7219 点击 2025-08-08 10:43

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。对于智能体而言，记忆（Memory）是其中的重要能力，承担了记录过往信息和外部知识的功能，对于提高智能体的个性化等能力至关重要。

来自主题: AI技术研报

7069 点击 2025-08-07 17:03

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准（如MTEB）只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中，这些基准就无能为力。为了更好的开发下一代向量模型和重排器，我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报

10575 点击 2025-08-07 14:43

“神经-符号”融合规划器性能显著超越o1：借鉴人类运动学习机制｜中国科学院磐石研发团队

科研er看过来！还在反复尝试材料组合方案，耗时又耗力？新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

来自主题: AI技术研报

8303 点击 2025-08-06 16:01

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

当前先进制造领域的产线良率往往超过 98%，因此异常样本（也称为缺陷样本）的搜集和标注已成为⼯业质检的核⼼瓶颈，过少的异常样本显著限制了模型的检测能⼒，利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择，但现有⽅法存在明显局限

来自主题: AI技术研报

7504 点击 2025-08-06 15:46

黄仁勋预言成真！AI智能体成GitHub主力，一天顶人类一年

「软件正在吞噬世界，但AI将吞噬软件。」—英伟达CEO黄仁勋的预言正加速照进现实。

来自主题: AI技术研报

7808 点击 2025-08-06 13:21

科研写作神器，超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别（OCR）是科学文献数字化与智能处理的基础环节，尽管该领域取得了一定进展，现有方法在真实科学文献处理时仍面临诸多挑战：

来自主题: AI技术研报

7197 点击 2025-08-06 12:56

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。

来自主题: AI技术研报

7291 点击 2025-08-06 12:18

小米模型实现声音理解新SOTA！数据吞吐效率暴增20倍，推理速度快4倍 | 全量开源

声音理解能力新SOTA，小米全量开源了模型。 MiDashengLM-7B，基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。

来自主题: AI技术研报

7017 点击 2025-08-06 12:11

北大、蚂蚁三个维度解构高效隐私保护机器学习：前沿进展+发展方向

在数据隐私日益重要的 AI 时代，如何在保护用户数据的同时高效运行机器学习模型，成为了学术界和工业界共同关注的难题。

来自主题: AI技术研报

6704 点击 2025-08-06 11:53

Qwen新开源，把AI生图里的文字SOTA拉爆了

通义模型家族，刚刚又双叒开源了，这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。这也是通义千问系列中首个图像生成基础模型。

来自主题: AI技术研报

7608 点击 2025-08-05 17:10

南大周志华团队最新力作：一个算法通吃所有，在线学习迎来新范式？

世界是动态变化的。为了理解这个动态变化的世界并在其中运行，AI 模型必须具备在线学习能力。为此，该领域提出了一种新的性能指标 —— 适应性遗憾值（adaptive regret），其定义为任意区间内的最大静态遗憾值。

来自主题: AI技术研报

6817 点击 2025-08-05 16:29

全球首个人形机器人通用视觉感知系统，Humanoid Occupancy建立多模态环境理解新范式

凭借类人化的结构设计与运动模式，人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域，而这些任务的高效完成，均以机器人对自身所处环境的全面精准理解为前提。

来自主题: AI技术研报

7237 点击 2025-08-05 16:14

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

当前环境感知通信正逐步成为第六代移动通信系统（6G）的核心使能技术之一。为支撑其在复杂三维环境下的部署需求，西安电子科技大学、香港中文大学（深圳）和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D，并构建了基于扩散模型的三维无线电图生成框架RadioDiff-3D。

来自主题: AI技术研报

7822 点击 2025-08-05 16:07

RAG也能推理思考！彻底解决多源异构知识难题

现在的RAG（检索增强生成）系统。您给它一个简单直接的问题，它能答得头头是道

来自主题: AI技术研报

9331 点击 2025-08-05 15:21

LLM抢人血案：强化学习天才被挖空，一朝沦为「无人区」！

AlphaStar等证明强化学习在游戏等复杂任务上，表现出色，远超职业选手！那强化学习怎么突然就不行了呢？强化学习到底是怎么走上歧路的？

来自主题: AI技术研报

7030 点击 2025-08-05 13:46

字节Seed数学新模型，SOTA了

不仅能达IMO银牌水准，更能解决普特南数学竞赛难题，甚至超越顶尖模型o4-mini！字节发布全新复杂数学解决模型——Seed-Prover。

来自主题: AI技术研报

8396 点击 2025-08-04 20:45

3D-R1：让AI理解3D世界的下一步

在人工智能快速发展的今天，我们已逐渐习惯于让 AI 识别图像、理解语言，甚至与之对话。但当我们进入真实三维世界，如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力？这正是 3D 视觉语言模型（3D VLM）所要解决的问题。

来自主题: AI技术研报

7017 点击 2025-08-04 20:04

藏师傅教你做即将爆火的AI玄学祈福壁纸，不止提示词还有创作思路

大家好，我是歸藏（guizang），今天给大家带来昨天探索的 AI 许愿祈福壁纸教程。昨天做了几张 AI 玄学的那种祈福壁纸，除了常见的文字花纹还加上了对应的神仙和一些现代化的处理。

来自主题: AI技术研报

9751 点击 2025-08-04 15:09

GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能

本文第一作者唐飞，浙江大学硕士生，研究方向是 GUI Agent、多模态推理等。

来自主题: AI技术研报

9021 点击 2025-08-04 13:59

告别复杂提示词！蚂蚁新方式让AI自动理解你的个性化需求

相信大家都有这样一个体验。跟AI无论什么对话，感觉都是说空话套话。

来自主题: AI技术研报

7725 点击 2025-08-04 13:49

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

不知道大家是否还记得，人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton，在一个多月前的演讲。 Sutton 认为，LLM 现在学习人类数据的知识已经接近极限，依靠「模仿人类」很难再有创新。

来自主题: AI技术研报

8175 点击 2025-08-04 12:25

万亿参数狂欢！一文刷爆2025年七大顶流大模型架构

从GPT-2到DeepSeek-V3和Kimi K2，架构看似未变，却藏着哪些微妙升级？本文深入剖析2025年顶级开源模型的创新技术，揭示滑动窗口注意力、MoE和NoPE如何重塑效率与性能。

来自主题: AI技术研报

8483 点击 2025-08-04 12:05

高质量「上下文工程」资源整理（含速览和精读）

上下文工程（Context Engineering）现在有多火，就不用多说了吧。

来自主题: AI技术研报

9796 点击 2025-08-04 11:38

全网苦等GPT-5，超级对齐团队遗作成重要线索，奥特曼发话「惊喜很多」

最近整个 AI 圈的目光似乎都集中在 GPT-5 上，相关爆料满天飞，但模型迟迟不见踪影。昨天我们报道了 The Information 扒出的 GPT-5 长文内幕，今天奥特曼似乎也坐不住，发了推文表示「惊喜很多，值得等待」。

来自主题: AI技术研报

7551 点击 2025-08-03 14:37

微软新研究：这40种工作最可能被AI取代

研究人员分析了20万条AI对话、整合了近3万项职业任务数据，通过计算覆盖率、成功率和影响范围三个维度，为每个职业算出了AI适用性分数。

来自主题: AI技术研报

9195 点击 2025-08-03 14:19

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

图像生成不光要好看，更要高效。混元基础模型团队提出全新框架MixGRPO，该框架通过结合随机微分方程（SDE）和常微分方程（ODE），利用混合采样策略的灵活性，简化了MDP中的优化流程，从而提升了效率的同时还增强了性能。

来自主题: AI技术研报

7832 点击 2025-08-03 13:37

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

近年来，扩散模型（Diffusion Models）凭借出色的生成质量，迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像（如 Stable Diffusion），到高质量人脸合成、音频生成，再到三维形状建模，扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

来自主题: AI技术研报

7751 点击 2025-08-03 13:04

刷新3D生成上限！一键生成精细到毛发的3D资产

在高质量3D生成需求日益增长的背景下，如何高效生成结构精良、几何精细的三维资产，已成为AIGC和数字内容创作领域的关键挑战。

来自主题: AI技术研报

8296 点击 2025-08-02 15:59