AI技术研报-这里有最前沿的人工智能技术解读

AI+出海，4 个月 ARR 500 万美元！蓝湖原班人马打造设计 Agent，一句话数秒生成原型，重新定义产品设计流程

在传统工具主导的设计流程中，从 Figma 或 Sketch 起稿，到开发团队手工编码，哪怕是一个简单的网页原型，通常也要经过多轮反复沟通与来回修改，整个流程周期以“周”为单位计算。而 Readdy.ai 的出现，正推动这个流程进入以“秒”计时的 AI 原生时代。

来自主题: AI技术研报

6423 点击 2025-06-30 14:42

微软推出深度视频探索智能体，登顶多个长视频理解基准

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。

来自主题: AI技术研报

6013 点击 2025-06-30 14:34

图像界的DeepSeek！12B参数对标GPT-4o，5秒出图，消费级硬件就能玩转编辑生成

图像模型开源还得是FLUX！Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev]，专为图像编辑打造，还能直接在消费级芯片上运行。

来自主题: AI技术研报

5389 点击 2025-06-30 14:29

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大模型的预训练-微调范式，正在悄然改写强化学习！伯克利团队提出新方法InFOM，不依赖奖励信号，也能在多个任务中实现超强迁移，还能做到「读心术」级别的推理。这到底怎么做到的？

来自主题: AI技术研报

5917 点击 2025-06-30 10:52

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

5916 点击 2025-06-30 10:24

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

让AI看懂95万物种，并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。

来自主题: AI技术研报

5390 点击 2025-06-29 16:59

Gary Marcus惊世之言：纯LLM上构建AGI彻底没了希望！MIT、芝大、哈佛论文火了

今天，著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文，称「对于 LLM 及其所谓能理解和推理的神话来说，情况变得更糟了 —— 而且是糟糕得多。」

来自主题: AI技术研报

5387 点击 2025-06-29 16:11

苹果一口咬死AI不会思考！OpenAI前高管直接开怼：AGI已来，别再酸了

最近，苹果的一篇论文掀起波澜，挑战了当下AI推理能力的基本假设。而OpenAI的前研究主管则断言：AGI时代已近在眼前。谁是谁非？AGI还有多远？

来自主题: AI技术研报

6846 点击 2025-06-29 12:30

Anthropic最新研究：Claude正悄悄进化为“情绪价值大师”

你有没有试过，深夜心情低落时，对着AI倾诉？Anthropic最新研究发现，越来越多成年人正把AI当作情感陪伴。

来自主题: AI技术研报

6020 点击 2025-06-28 17:06

航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o实现SOTA｜上交创智复旦

时序数据分析在工业监控、医疗诊断等领域至关重要。比如航空发动机监控这个复杂工业场景中，工程师需分析海量多通道传感器数据，以判断设备状态并制定维护决策。

来自主题: AI技术研报

5866 点击 2025-06-28 17:00

上下文就是一切！行业热议话题：提示工程是否应该改名

这几天 AI 圈子有个非常有必要也非常热的讨论就是提示工程是不是应该被称为“上下文工程”更加适合。

来自主题: AI技术研报

5317 点击 2025-06-28 16:54

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

在解决离线强化学习、图片逆问题等任务中，对生成模型的能量引导（energy guidance）是一种可控的生成方法，它构造灵活，适用于各种任务，且允许无额外训练条件生成模型。同时流匹配（flow matching）框架作为一种生成模型，近期在分子生成、图片生成等领域中已经展现出巨大潜力。

来自主题: AI技术研报

5955 点击 2025-06-28 16:35

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。然而，随着视频长度和分辨率的提升，Diffusion Transformer（DiT）模型中的注意力机制计算量急剧增加，成为推理效率的最大瓶颈。

来自主题: AI技术研报

5849 点击 2025-06-28 16:09

这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash

只需一眨眼的功夫，Mercury 就把任务完成了。「我们非常高兴地推出 Mercury，这是首款专为聊天应用量身定制的商业级扩散 LLM！Mercury 速度超快，效率超高，能够为对话带来实时响应，就像 Mercury Coder 为代码带来的体验一样。」

来自主题: AI技术研报

5406 点击 2025-06-28 13:01

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

但在当今的深度 Transformer LLMs 中仍有其局限性，限制了信息在跨层间的高效传递。彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代：多路动态稠密连接（MUltiway Dynamic Dense (MUDD) connection），大幅度提高了 Transformer 跨层信息传递的效率。

来自主题: AI技术研报

5598 点击 2025-06-28 11:33

紫东太初开源视觉神经增强方法，即插即用终结多模态幻觉 | ACL 2025

通过“视觉神经增强”机制，直接放大模型中的视觉关键注意力头输出，显著降低模型的幻觉现象。

来自主题: AI技术研报

6833 点击 2025-06-28 11:25

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

6048 点击 2025-06-28 11:18

不靠Agent，4步修复真Bug！蚂蚁CGM登顶SWE-Bench开源榜

Agentless+开源模型，也能高质量完成仓库级代码修复任务，效果媲美业界 SOTA 。

来自主题: AI技术研报

8199 点击 2025-06-27 16:30

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

8176 点击 2025-06-27 16:26

苹果出手！改进GRPO，让dLLM也能高效强化学习

最近，扩散语言模型（dLLM）有点火。现在，苹果也加入这片新兴的战场了。

来自主题: AI技术研报

7182 点击 2025-06-27 16:21

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

Agent能“看懂网页”，像人类一样上网？阿里发布WebDancer，就像它的名字一样，为“网络舞台”而生。

来自主题: AI技术研报

6046 点击 2025-06-27 15:54

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

LLM 智能体（LLM Agent）正从 “纸上谈兵” 的文本生成器，进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动，向着通用人工智能（AGI）大步迈进。然而，这份 “自主权” 也带来了新的问题：智能体在自主交互中，是否安全？

来自主题: AI技术研报

6038 点击 2025-06-27 15:39

Black Forest震撼开源FLUX.1 Kontext [dev]：媲美GPT-4o的图像编辑

前段时间，沉寂了很久的Flux官方团队Black Forest Labs发布了新模型：FLUX.1 Kontext，这是一套支持生成与编辑图像的流匹配（flow matching）模型。FLUX.1 Kontext不仅支持文生图，还实现了上下文图像生成功能，可以同时使用文本和图像作为提示词，并能无缝提取修改视觉元素，生成全新且协调一致的画面。

来自主题: AI技术研报

7353 点击 2025-06-27 12:36

Google刚刚开源的这个东西，让Claude慌了｜ Gemini-CLI 提示词详细拆解

朋友们，大家好呀！ Google 昨晚发布并且开源了自己的终端代码运行助手，GEMINI-CLI ，完全是照着 Claude Code 来对标。如果你已经非常习惯使用 Claude Code 了，相信也可以无缝切换到 Gemini-Cli 来尝试使用。

来自主题: AI技术研报

6294 点击 2025-06-27 12:23

AI全流程开发插件，零基础小白也能轻松上手！

最近我受朋友启发，尝试把自己需要的便携小功能使用AI工具做出来，考虑编程写代码目前还得咨询Claude，我最开始想着，和它聊几句获得一些灵感，结果聊了两句话以后，我的插件雏形已经做出来了。我：？？？

来自主题: AI技术研报

5752 点击 2025-06-27 11:09

连不上Gemini CLI，试下DeepSeek-R1接入Claude code

这两天Google推出了Gemini-CLI这个编程工具，功能和Claude Code基本一致，结果根本排不上队，登录一下很快闪退，和下图一样，使用感受令人不愉悦。很多人都在等着体验这个新工具，但现实是您可能要等很久才能轮到。

来自主题: AI技术研报

7206 点击 2025-06-27 11:00

AI听懂的，究竟是动物的语言，还是人类的想象？

如果说眼睛是心灵之窗，那么语言或许就是通往心灵的门户。

来自主题: AI技术研报

6578 点击 2025-06-27 10:47

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了？北大出考题，结果显示：现有模型都不能胜任。

来自主题: AI技术研报

8152 点击 2025-06-27 10:06

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

8171 点击 2025-06-27 10:03

国产大模型高考出分了：裸分683，选清华还是北大？

这两天啊，各地高考的成绩终于是陆续公布了。

来自主题: AI技术研报

7757 点击 2025-06-26 16:15

AI技术研报-这里有最前沿的人工智能技术解读

AI+出海，4 个月 ARR 500 万美元！蓝湖原班人马打造设计 Agent，一句话数秒生成原型，重新定义产品设计流程

微软推出深度视频探索智能体，登顶多个长视频理解基准

图像界的DeepSeek！12B参数对标GPT-4o，5秒出图，消费级硬件就能玩转编辑生成

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

Gary Marcus惊世之言：纯LLM上构建AGI彻底没了希望！MIT、芝大、哈佛论文火了

苹果一口咬死AI不会思考！OpenAI前高管直接开怼：AGI已来，别再酸了

Anthropic最新研究：Claude正悄悄进化为“情绪价值大师”

航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o实现SOTA｜上交创智复旦

上下文就是一切！行业热议话题：提示工程是否应该改名

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

紫东太初开源视觉神经增强方法，即插即用终结多模态幻觉 | ACL 2025

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

不靠Agent，4步修复真Bug！蚂蚁CGM登顶SWE-Bench开源榜

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

苹果出手！改进GRPO，让dLLM也能高效强化学习

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

Black Forest震撼开源FLUX.1 Kontext [dev]：媲美GPT-4o的图像编辑

Google刚刚开源的这个东西，让Claude慌了 ｜ Gemini-CLI 提示词详细拆解

AI全流程开发插件，零基础小白也能轻松上手！

连不上Gemini CLI，试下DeepSeek-R1接入Claude code

AI听懂的，究竟是动物的语言，还是人类的想象？

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

国产大模型高考出分了：裸分683，选清华还是北大？

Google刚刚开源的这个东西，让Claude慌了｜ Gemini-CLI 提示词详细拆解