AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

来自主题: AI技术研报
6809 点击    2025-04-11 09:28
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持

谷歌Deep Research重大升级,搭载全球顶尖Gemini 2.5 Pro模型。5分钟生成46页学术论文、复杂报告转为10分钟播客。性能超OpenAI DR 40%,价格仅为其1/10。

来自主题: AI技术研报
5997 点击    2025-04-10 12:26
UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

OpenAI o1/o3-mini级别的代码推理模型竟被抢先开源!UC伯克利和Together AI联合推出的DeepCoder-14B-Preview,仅14B参数就能媲美o3-mini,开源代码、数据集一应俱全,免费使用。

来自主题: AI技术研报
7096 点击    2025-04-10 11:52
字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线

自数字人技术Omnihuman-1引起行业关注之后,字节智能创作团队再放大招。全新DreamActor-M1横空出世,一张照片一段视频,就能生成电影级视频,精准迁移表情动作,还支持多种画风。

来自主题: AI技术研报
9055 点击    2025-04-10 11:12
芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计效率提升2.5倍,中科大华为诺亚联合,用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心,逻辑优化(Logic Optimization, LO)作为芯片设计流程中的关键环节,其效率直接影响着芯片设计的整体性能。

来自主题: AI技术研报
2781 点击    2025-04-10 11:03
孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

北京大学陈宝权教授团队提出RainyGS技术,通过结合物理模拟和3D高斯泼溅渲染框架,实现了真实场景中动态雨效的高质量仿真与呈现,真正实现「从真实到真实」,或者「以仿真乱真」,即Real2Sim2Real !相比现有的视频编辑工具(如 Runway),其物理真实性获得保证。

来自主题: AI技术研报
7065 点击    2025-04-10 10:51
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
7073 点击    2025-04-10 10:20
jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器(reranker),其核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。

来自主题: AI技术研报
6341 点击    2025-04-09 17:03
论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

论文党狂喜!alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

刚刚,alphaXiv 推出了新功能「Deep Research for arXiv」,该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读,显著提升文献检索及研究效率。

来自主题: AI技术研报
9170 点击    2025-04-09 16:07
南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

来自主题: AI技术研报
7906 点击    2025-04-09 15:40
反英伟达联盟的里程碑,UA Link 1.0:正式发布

反英伟达联盟的里程碑,UA Link 1.0:正式发布

反英伟达联盟的里程碑,UA Link 1.0:正式发布

UALink 1.0发布:支持1024 GPU,200GT/s带宽,开放标准挑战NVLink。

来自主题: AI技术研报
6358 点击    2025-04-09 14:55
深度|具身合成数据的路线之争,谁将率先走出困境?

深度|具身合成数据的路线之争,谁将率先走出困境?

深度|具身合成数据的路线之争,谁将率先走出困境?

本文主要描述了具身合成数据两条主要技术路线之争:“视频合成+3D重建”or “端到端3D生成”。参考自动驾驶的成功经验,前者模态转换链路过长导致误差累积,'直接合成3D数据'理论上有信息效率优势,但需要克服“常识欠缺”等挑战。

来自主题: AI技术研报
9404 点击    2025-04-09 10:07
Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

刚刚,一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示,Llama 4证明Scaling已经结束了,LLM并不能可靠推理。但更可怕的事,就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报
7077 点击    2025-04-09 09:49
迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

迈向机器人领域ImageNet,大牛Pieter Abbeel领衔国内外高校共建RoboVerse,统一仿真平台、数据集和基准

大规模数据集和标准化评估基准显著促进了自然语言处理和计算机视觉领域的发展。然而,机器人领域在如何构建大规模数据集并建立可靠的评估体系方面仍面临巨大挑战。

来自主题: AI技术研报
7045 点击    2025-04-09 08:59
生图加入CoT,性能提升80%!微软港中文打造天才画手

生图加入CoT,性能提升80%!微软港中文打造天才画手

生图加入CoT,性能提升80%!微软港中文打造天才画手

AI绘画总「翻车」,不是抓不住重点,就是细节崩坏?别愁!微软和港中文学者带来ImageGen-CoT技术,让AI像人一样思考推理,生成超惊艳画作,性能提升高达80%。

来自主题: AI技术研报
2615 点击    2025-04-08 14:52
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。

来自主题: AI技术研报
7036 点击    2025-04-08 14:36
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight不再简单地让模型拟合人眼打分,而是将评分视作一种引导信号,促使模型深度思考图像质量的本质原因。有了会思考的“大脑”,视频云技术栈不仅得以重塑也让用户体验有了跃迁。

来自主题: AI技术研报
3789 点击    2025-04-08 14:30
三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报
4876 点击    2025-04-08 14:26
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

来自主题: AI技术研报
9140 点击    2025-04-08 14:18
Exa:给 AI Agent 的 “Bing API”

Exa:给 AI Agent 的 “Bing API”

Exa:给 AI Agent 的 “Bing API”

Agentic AI 的 3 要素是:tool use,memory 和 context,围绕这三个场景会出现 agent-native Infra 的机会。

来自主题: AI技术研报
7112 点击    2025-04-08 10:10