AI技术研报-这里有最前沿的人工智能技术解读

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

近年来，端到端（End-to-End，E2E）自动驾驶技术不断进步，但在复杂的闭环交互环境中，由于其因果推理能力有限，仍然难以做出准确决策。虽然视觉 - 语言大模型（Vision-Language Model，VLM）凭借其卓越的理解和推理能力，为端到端自动驾驶带来了新的希望，但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

来自主题: AI技术研报

6809 点击 2025-04-11 09:28

AI优化芯片布局，设计阶段即考虑最终性能，中科大华为诺亚新方法入选ICLR 2025 Oral

用AI指导芯片设计，中科大王杰教授团队、华为诺亚实验室、天津大学提出全新芯片宏单元布局优化方法LaMPlace！

来自主题: AI技术研报

6028 点击 2025-04-11 08:47

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！

来自主题: AI技术研报

6839 点击 2025-04-10 16:25

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA

利用字节团队魔改的FLUX模型，可以直接把多个参考主体放进一张图了。

来自主题: AI技术研报

7070 点击 2025-04-10 15:15

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

谷歌Deep Research重大升级，搭载全球顶尖Gemini 2.5 Pro模型。5分钟生成46页学术论文、复杂报告转为10分钟播客。性能超OpenAI DR 40%，价格仅为其1/10。

来自主题: AI技术研报

5997 点击 2025-04-10 12:26

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

9042 点击 2025-04-10 12:15

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级别的代码推理模型竟被抢先开源！UC伯克利和Together AI联合推出的DeepCoder-14B-Preview，仅14B参数就能媲美o3-mini，开源代码、数据集一应俱全，免费使用。

来自主题: AI技术研报

7096 点击 2025-04-10 11:52

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

自数字人技术Omnihuman-1引起行业关注之后，字节智能创作团队再放大招。全新DreamActor-M1横空出世，一张照片一段视频，就能生成电影级视频，精准迁移表情动作，还支持多种画风。

来自主题: AI技术研报

9055 点击 2025-04-10 11:12

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心，逻辑优化（Logic Optimization, LO）作为芯片设计流程中的关键环节，其效率直接影响着芯片设计的整体性能。

来自主题: AI技术研报

2781 点击 2025-04-10 11:03

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

北京大学陈宝权教授团队提出RainyGS技术，通过结合物理模拟和3D高斯泼溅渲染框架，实现了真实场景中动态雨效的高质量仿真与呈现，真正实现「从真实到真实」，或者「以仿真乱真」，即Real2Sim2Real ！相比现有的视频编辑工具（如 Runway），其物理真实性获得保证。

来自主题: AI技术研报

7065 点击 2025-04-10 10:51

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

来自主题: AI技术研报

7073 点击 2025-04-10 10:20

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。

来自主题: AI技术研报

7071 点击 2025-04-10 09:53

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了！

来自主题: AI技术研报

6846 点击 2025-04-09 17:37

jina-reranker-m0 全新多模态多语言重排器

今天，我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器（reranker），其核心能力在于对包含丰富视觉元素的文档进行重排和精排，同时兼容跨语言场景。

来自主题: AI技术研报

6341 点击 2025-04-09 17:03

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升，从稀疏视角重建 3D 场景已成为一大热点课题。

来自主题: AI技术研报

6406 点击 2025-04-09 16:28

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

刚刚，alphaXiv 推出了新功能「Deep Research for arXiv」，该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读，显著提升文献检索及研究效率。

来自主题: AI技术研报

9170 点击 2025-04-09 16:07

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式，支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

来自主题: AI技术研报

7906 点击 2025-04-09 15:40

速递｜通义千问3.0倒计时，通过新加坡节点扩展，阿里巴巴的AI全球化浮出水面

阿里巴巴的云业务部门正升级其海外可用的人工智能工具套件，以吸引更多全球客户。

来自主题: AI技术研报

7967 点击 2025-04-09 15:03

反英伟达联盟的里程碑，UA Link 1.0：正式发布

UALink 1.0发布：支持1024 GPU，200GT/s带宽，开放标准挑战NVLink。

来自主题: AI技术研报

6358 点击 2025-04-09 14:55

深度｜具身合成数据的路线之争，谁将率先走出困境？

本文主要描述了具身合成数据两条主要技术路线之争：“视频合成+3D重建”or “端到端3D生成”。参考自动驾驶的成功经验，前者模态转换链路过长导致误差累积，'直接合成3D数据'理论上有信息效率优势，但需要克服“常识欠缺”等挑战。

来自主题: AI技术研报

9404 点击 2025-04-09 10:07

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

刚刚，一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示，Llama 4证明Scaling已经结束了，LLM并不能可靠推理。但更可怕的事，就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报

7077 点击 2025-04-09 09:49

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

4825 点击 2025-04-09 09:14

迈向机器人领域ImageNet，大牛Pieter Abbeel领衔国内外高校共建RoboVerse，统一仿真平台、数据集和基准

大规模数据集和标准化评估基准显著促进了自然语言处理和计算机视觉领域的发展。然而，机器人领域在如何构建大规模数据集并建立可靠的评估体系方面仍面临巨大挑战。

来自主题: AI技术研报

7045 点击 2025-04-09 08:59

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

多模态视频异常理解任务，又有新突破！

来自主题: AI技术研报

8307 点击 2025-04-08 15:01

生图加入CoT，性能提升80%！微软港中文打造天才画手

AI绘画总「翻车」，不是抓不住重点，就是细节崩坏？别愁！微软和港中文学者带来ImageGen-CoT技术，让AI像人一样思考推理，生成超惊艳画作，性能提升高达80%。

来自主题: AI技术研报

2615 点击 2025-04-08 14:52

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

在信息检索系统中，搜索引擎的能力只是影响结果的一个方面，真正的瓶颈往往在于：用户的原始 query 本身不够好。

来自主题: AI技术研报

7036 点击 2025-04-08 14:36

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight不再简单地让模型拟合人眼打分，而是将评分视作一种引导信号，促使模型深度思考图像质量的本质原因。有了会思考的“大脑”，视频云技术栈不仅得以重塑也让用户体验有了跃迁。

来自主题: AI技术研报

3789 点击 2025-04-08 14:30

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务，使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报

4876 点击 2025-04-08 14:26

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

9140 点击 2025-04-08 14:18

Exa：给 AI Agent 的 “Bing API”

Agentic AI 的 3 要素是：tool use，memory 和 context，围绕这三个场景会出现 agent-native Infra 的机会。

来自主题: AI技术研报

7112 点击 2025-04-08 10:10

AI技术研报-这里有最前沿的人工智能技术解读

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

AI优化芯片布局，设计阶段即考虑最终性能，中科大华为诺亚新方法入选ICLR 2025 Oral

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA​

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

jina-reranker-m0 全新多模态多语言重排器

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

速递｜通义千问3.0倒计时，通过新加坡节点扩展，阿里巴巴的AI全球化浮出水面

反英伟达联盟的里程碑，UA Link 1.0：正式发布

深度｜具身合成数据的路线之争，谁将率先走出困境？

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

迈向机器人领域ImageNet，大牛Pieter Abbeel领衔国内外高校共建RoboVerse，统一仿真平台、数据集和基准

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

生图加入CoT，性能提升80%！微软港中文打造天才画手

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

Exa：给 AI Agent 的 “Bing API”

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA