AI技术研报-这里有最前沿的人工智能技术解读

刚刚，中国AI闯入全球编程前二！前面只剩Claude

Code Arena最新放榜，Qwen3.7-Max以1541分冲进全球第四，成为前五中唯一的非Claude模型。编程，中国模型第一次杀到这个位置。

来自主题: AI技术研报

10686 点击 2026-05-27 09:14

用文字记住图片，是一种错觉：MemEye用「原图证据」重测多模态Agent Memory

多模态Agent最容易制造的一种错觉是：它看过图片，所以它记住了图片。

来自主题: AI技术研报

6360 点击 2026-05-27 08:46

Claude Code和机器人背后的共同机制，UIUC、Meta、Stanford这篇最新综述讲清楚了

说在前面：这又是一篇讲Harness的Survey，你最近可能已经看过了数篇讲Harness的文章、论文，其中还可能包括我上周解读的《Agent Harness Engineering：Agent的底盘工程综述｜CMU、耶鲁、Amazon》。

来自主题: AI技术研报

10880 点击 2026-05-27 08:46

不用人类手写训练框架了！AI自己写代码，训出1B端侧「小钢炮」

你的电脑里，或许很快会住进一只会聊天的「小怪兽」。

来自主题: AI技术研报

9880 点击 2026-05-26 16:06

龙虾之父教你省钱：开源Skill给你的Skill减肥

Skill水平参差不齐，龙虾之父Peter看不下去了。

来自主题: AI技术研报

6676 点击 2026-05-26 16:05

一个月的活一周干完！英伟达世界模型训练速度飙升400%

英伟达世界动作模型 DreamZero 训练一次要烧 8 张 H100 整整 25 天，RLinf 从算子融合到 I/O 全链路系统级重构，把训练吞吐拉高近 4 倍——1 个月的活，1 周就能干完。

来自主题: AI技术研报

6932 点击 2026-05-26 16:04

面壁智能推出AI写的预训练框架ForgeTrain，从此AI开始造自己

造AI这件事，现在的主角变成了AI。

来自主题: AI技术研报

7570 点击 2026-05-26 16:03

“Token”必须死？

“我语言的局限，即意味着我世界的局限。”（ Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. ）

来自主题: AI技术研报

9292 点击 2026-05-26 15:23

0.9B跑出90%真机成功率！上海交大为VLA补上空间感

机器人看得见，但不一定看得准。

来自主题: AI技术研报

5550 点击 2026-05-26 15:23

AI时代，流量不再“跳动”，字节进入“中年危机”！

字节跳动计划在今年将其在人工智能基础设施上的支出大幅提升惊人的25%。这意味着将投入2000亿元人民币，这可不是一个边缘性的微调，是一次由不断升级的存储芯片成本以及字节跳动想要主导AI领域的雄心共同推动的巨大升级。

来自主题: AI技术研报

8693 点击 2026-05-26 14:58

画数独、烧蜡烛都不翻车了？浙大&阿里让AI先三思再下笔｜ACL 2026

当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美，但一遇到需要逻辑推理的生成任务就频频翻车。

来自主题: AI技术研报

6125 点击 2026-05-26 14:58

怎么知道 Agent 真干完活了？

判断 Agent 靠谱与否，核心指标只有一个：是不是真干完活了

来自主题: AI技术研报

8279 点击 2026-05-26 14:57

ACL 2026 Main | 不只是调用地图API，Spatial-Agent让大模型生成可执行地理分析工作流

大语言模型在地图、城市、交通等空间领域的应用越来越广泛。对于这些场景来说，问题往往不只是 “查一个地点” 或 “调用一次路线 API” 就能解决的，而是需要把用户的自然语言问题组织成一段可执行、可验证的地理分析流程。

来自主题: AI技术研报

9004 点击 2026-05-26 14:57

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

7784 点击 2026-05-26 10:26

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报

7290 点击 2026-05-26 10:07

AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

前几天大模型圈子有个很魔幻的场面，傅盛、孙宇晨、特朗普家族，三个八竿子打不着的人，开始扎堆做大模型中转站的生意。

来自主题: AI技术研报

7395 点击 2026-05-26 10:04

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

我悟了，DeepSeek V4系列发布1个月，价格屠夫的本色这才刚刚发力啊！

来自主题: AI技术研报

10577 点击 2026-05-25 16:01

Claude「永久大脑」，真的来了！

刚刚，Claude「双记忆系统」首次爆出！全新「文件记忆」让AI一边聊天，一边自动做笔记。还有杀手级Conway Agent浮出水面，7x24小时永不下线。

来自主题: AI技术研报

7905 点击 2026-05-25 15:13

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

想象一个真实的工作日：项目经理要更新项目状态，财务人员要整理客户账单，医疗管理员要核对预约和保险信息。

来自主题: AI技术研报

10502 点击 2026-05-25 15:10

从「说错话」到「干错事」：复旦、CityUHK、SMU、UIUC等13家机构联合发布「具身智能安全」综述

具身智能（Embodied AI）正在快速从实验室走向真实世界。

来自主题: AI技术研报

8722 点击 2026-05-25 14:45

挖到个巨省Token的开源Agent，还能以复利的方式变现（企业、开发者必看）！

大家好，我是袋鼠帝。不知道大家有没有发现，随着AI的发展，token这个东西居然还变得越来越贵了。

来自主题: AI技术研报

9071 点击 2026-05-25 14:45

把大模型，压缩到 200MB 内存：面壁智能的新模型，手表也够跑

刚刚的，面壁智能联合 OpenBMB 搞了个端侧开源周。今天作为开源周的第一天，端出来的是个好东西 BitCPM-CANN，模型权重只需要约 200 MB 的内存，手表也够跑

来自主题: AI技术研报

7277 点击 2026-05-25 14:44

教你如何配置出最强性能的Claude Code

Claude Code 的 settings.json 里有 125 个配置键。官方文档只讲了大约 40 个。

来自主题: AI技术研报

5781 点击 2026-05-25 10:16

AI首次独自跑完芯片设计！219词进7nm图纸出，工程师全程没碰键盘

219个词喂给AI，12小时后，一份7nm芯片版图出来了，工程师全程没碰键盘。这条芯片行业几十年没有AI走完过的路，第一次走通了。

来自主题: AI技术研报

7815 点击 2026-05-25 10:15

还在手写CUDA内核？CODA来了！LLM和新手也能让Transformer跑出光速

5 月 22 日，Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道：「经过一些数学重写，结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue（矩阵乘法加尾声）。给定一些优化的原语，LLM（以及新手）就可以为所有 Transformer 操作编写光速内核！」

来自主题: AI技术研报

8896 点击 2026-05-25 10:13

AI Agent 距离真正替人「全自动办公」，还有多远？

近日，Meta 曝光的一段内部录音显示：公司为了训练大模型，正通过监控工具监视员工在电脑上的鼠标和键盘操作。

来自主题: AI技术研报

10191 点击 2026-05-25 10:13

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

8723 点击 2026-05-25 09:49