AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。同时流匹配(flow matching)框架作为一种生成模型,近期在分子生成、图片生成等领域中已经展现出巨大潜力。

来自主题: AI技术研报
6246 点击    2025-06-28 16:35
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制计算量急剧增加,成为推理效率的最大瓶颈。

来自主题: AI技术研报
6178 点击    2025-06-28 16:09
这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash

这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash

这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash

只需一眨眼的功夫,Mercury 就把任务完成了。「我们非常高兴地推出 Mercury,这是首款专为聊天应用量身定制的商业级扩散 LLM!Mercury 速度超快,效率超高,能够为对话带来实时响应,就像 Mercury Coder 为代码带来的体验一样。」

来自主题: AI技术研报
5663 点击    2025-06-28 13:01
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!

ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!

ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!

但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息在跨层间的高效传递。 彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代:多路动态稠密连接(MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的效率。

来自主题: AI技术研报
5849 点击    2025-06-28 11:33
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报
6344 点击    2025-06-28 11:18
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

Agentless+开源模型,也能高质量完成仓库级代码修复任务,效果媲美业界 SOTA 。

来自主题: AI技术研报
8488 点击    2025-06-27 16:30
苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

最近,扩散语言模型(dLLM)有点火。现在,苹果也加入这片新兴的战场了。

来自主题: AI技术研报
7439 点击    2025-06-27 16:21
AgentAuditor: 让智能体安全评估器的精确度达到人类水平

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

来自主题: AI技术研报
6291 点击    2025-06-27 15:39
Black Forest震撼开源FLUX.1 Kontext [dev]:媲美GPT-4o的图像编辑

Black Forest震撼开源FLUX.1 Kontext [dev]:媲美GPT-4o的图像编辑

Black Forest震撼开源FLUX.1 Kontext [dev]:媲美GPT-4o的图像编辑

前段时间,沉寂了很久的Flux官方团队Black Forest Labs发布了新模型:FLUX.1 Kontext,这是一套支持生成与编辑图像的流匹配(flow matching)模型。FLUX.1 Kontext不仅支持文生图,还实现了上下文图像生成功能,可以同时使用文本和图像作为提示词,并能无缝提取修改视觉元素,生成全新且协调一致的画面。

来自主题: AI技术研报
8074 点击    2025-06-27 12:36
Google刚刚开源的这个东西,让Claude慌了 | Gemini-CLI 提示词详细拆解

Google刚刚开源的这个东西,让Claude慌了 | Gemini-CLI 提示词详细拆解

Google刚刚开源的这个东西,让Claude慌了 | Gemini-CLI 提示词详细拆解

朋友们,大家好呀! Google 昨晚发布并且开源了自己的终端代码运行助手,GEMINI-CLI ,完全是照着 Claude Code 来对标。如果你已经非常习惯使用 Claude Code 了,相信也可以无缝切换到 Gemini-Cli 来尝试使用。

来自主题: AI技术研报
6800 点击    2025-06-27 12:23
AI全流程开发插件,零基础小白也能轻松上手!

AI全流程开发插件,零基础小白也能轻松上手!

AI全流程开发插件,零基础小白也能轻松上手!

最近我受朋友启发,尝试把自己需要的便携小功能使用AI工具做出来,考虑编程写代码目前还得咨询Claude,我最开始想着,和它聊几句获得一些灵感,结果聊了两句话以后,我的插件雏形已经做出来了。我:???

来自主题: AI技术研报
6101 点击    2025-06-27 11:09
连不上Gemini CLI,试下DeepSeek-R1接入Claude code

连不上Gemini CLI,试下DeepSeek-R1接入Claude code

连不上Gemini CLI,试下DeepSeek-R1接入Claude code

这两天Google推出了Gemini-CLI这个编程工具,功能和Claude Code基本一致,结果根本排不上队,登录一下很快闪退,和下图一样,使用感受令人不愉悦。很多人都在等着体验这个新工具,但现实是您可能要等很久才能轮到。

来自主题: AI技术研报
7918 点击    2025-06-27 11:00
AI听懂的,究竟是动物的语言,还是人类的想象?

AI听懂的,究竟是动物的语言,还是人类的想象?

AI听懂的,究竟是动物的语言,还是人类的想象?

如果说眼睛是心灵之窗,那么语言或许就是通往心灵的门户。

来自主题: AI技术研报
6797 点击    2025-06-27 10:47
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
8471 点击    2025-06-27 10:03
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

来自主题: AI技术研报
7207 点击    2025-06-26 16:05
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。

来自主题: AI技术研报
7069 点击    2025-06-26 15:52
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。

来自主题: AI技术研报
8586 点击    2025-06-26 15:37
全模态RAG突破文本局限,港大构建跨模态一体化系统

全模态RAG突破文本局限,港大构建跨模态一体化系统

全模态RAG突破文本局限,港大构建跨模态一体化系统

突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。

来自主题: AI技术研报
7581 点击    2025-06-26 15:18
Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”

AI不一定是“邪恶”的,但它也远非“中立无害”。 过去几年里,我们习惯了通过 ChatGPT 等 AI 产品提问、聊天、生成代码。

来自主题: AI技术研报
8466 点击    2025-06-26 09:28
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。

来自主题: AI技术研报
5945 点击    2025-06-25 16:55