AI技术研报-这里有最前沿的人工智能技术解读

一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

加州大学伯克利分校等机构的研究人员，近日推出了一种全新的基因组语言模型GPN-Star，可以将全基因组比对和物种树信息装进大模型，在人类基因变异预测方面达到了当前最先进的水平。

来自主题: AI技术研报

10830 点击 2025-10-16 12:19

清华&巨人网络首创MoE多方言TTS框架，数据代码方法全开源

无论是中文的粤语、闽南话、吴语，还是欧洲的荷兰比尔茨语方言、法国奥克语，亦或是非洲和南美的地方语言，方言都承载着独特的音系与文化记忆，是人类语言多样性的重要组成部分。然而，许多方言正在快速消失，语音技术如果不能覆盖这些语言，势必加剧数字鸿沟与文化失声。

来自主题: AI技术研报

9101 点击 2025-10-16 12:08

首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」

“如果一个问题只需小模型就能回答，为什么还要让更贵的大模型去思考？”

来自主题: AI技术研报

9103 点击 2025-10-16 11:35

NeurIPS 25 | 中大&UC Merced等开源RAPID Hand，重新定义多指灵巧手数据采集

在最近的一篇 NeurIPS 25 中稿论文中，来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。

来自主题: AI技术研报

10095 点击 2025-10-16 10:52

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

只花120元，效果吊打70000元微调！腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数，只要在提示词中学习简短经验，即可实现高性价比提升模型性能。

来自主题: AI技术研报

10880 点击 2025-10-15 17:06

不用跟AI客气了！新研究：语气越粗鲁回答正确率越高

找AI帮忙不要再客气了，效果根本适得其反。宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示，你说话越粗鲁，LLM回答越准。

来自主题: AI技术研报

7560 点击 2025-10-15 14:52

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

7510 点击 2025-10-15 14:19

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报

7602 点击 2025-10-15 14:00

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验：看完一部喜欢的动漫，总会心血来潮地想去 “圣地巡礼”；刷到别人剪辑精美的旅行 vlog，也会忍不住收藏起来，想着哪天亲自走一遍同样的路线。旅行与影像的结合，总是能勾起人们的

来自主题: AI技术研报

9245 点击 2025-10-15 12:30

美图和奇点星宇，设计Agent产品都在疯狂生长

8 月榜单，最值得关注的变化是 Lovart 的访问量上升，8 月访问量上涨了 68.08% 至 323w，进入榜单。Lovart，读者想必已经熟悉，是奇点星宇的另一款 AI 视觉类产品，其产品核心设计为画布+对话框+编辑工具箱，也就是用户指导 AI 干活，

来自主题: AI技术研报

10861 点击 2025-10-15 12:19

ICLR神秘论文曝光！SAM3用「概念」看世界，重构视觉AI新范式

2023年Meta推出SAM，随后SAM 2扩展到视频分割，性能再度突破。近日，SAM 3悄悄现身ICLR 2026盲审论文，带来全新范式——「基于概念的分割」（Segment Anything with Concepts），这预示着视觉AI正从「看见」迈向真正的「理解」。

来自主题: AI技术研报

9321 点击 2025-10-15 12:18

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

这几天，关于「微调已死」的言论吸引了学术圈的广泛关注。一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering（智能体 / 主动式上下文工程）的技术，让语言模型无需微调也能实现自我提升！

来自主题: AI技术研报

9138 点击 2025-10-15 12:14

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

10185 点击 2025-10-15 12:12

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报

9056 点击 2025-10-15 12:07

别被提示词优化困住！用DSPy.GEPA把Prompt做成可演进的工程（万字长文)

写给正在落地 AI 产品的工程师。一些代码直接可改造复用；另一些，是我踩坑后的经验之谈。

来自主题: AI技术研报

9674 点击 2025-10-15 12:01

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

近日，蚂蚁集团正式开源业界首个高性能扩散语言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

来自主题: AI技术研报

6733 点击 2025-10-15 11:46

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

8910 点击 2025-10-14 16:34

AI产品在亚洲疯狂增长，开发者们如何抓住注意力涣散的年轻人

根据 Sensor Tower 数据显示，2025 H1 AI 应用的下载量达到 17 亿次，增长 67%，IAP 收入总计达到 19 亿美元，增幅达到 100.6%。在走过了概念验证阶段后，AI 应用正成为一股很强的增长动力，给已经相对平静的应用市场注入了活力。

来自主题: AI技术研报

8470 点击 2025-10-14 13:17

剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了

为什么大模型，在执行长时任务时容易翻车？这让一些专家，开始质疑大模型的推理能力，认为它们是否只是提供了「思考的幻觉」。近日，剑桥大学等机构的一项研究证明：问题不是出现在推理上，而是出在大模型的执行能力上。

来自主题: AI技术研报

8629 点击 2025-10-14 11:10

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”，有解了！

来自主题: AI技术研报

8838 点击 2025-10-14 10:57

灵巧手能帮女友拧瓶盖了！同济清华上海交大等新成果 | CoRL 2025

灵巧手技能+1，能帮女友拧瓶盖了！

来自主题: AI技术研报

7899 点击 2025-10-14 10:25

真正的AI竞争力，藏在大模型“后训练”这一步

当全球的目光还在聚焦基座模型的参数竞赛时，一场更为深刻的变革正在悄然发生——后训练（Post-Training）。

来自主题: AI技术研报

9008 点击 2025-10-14 10:16

产品经理必读：AI Agent 架构指南

这是一份为正在开发 AI Agent 的产品经理准备的完整指南，介绍了 Agent 架构、编排模式等话题。

来自主题: AI技术研报

7941 点击 2025-10-14 10:10

后果真实且残酷！哈佛研究揭示AI如何冲击就业市场

两位哈佛学者通过研究6200万份简历和近2亿条招聘职位数据，揭示了AI对就业带来的真实、残酷的冲击：它不是无差别地针对所有人，而是在大量“吞噬”初级岗位，让那些刚刚踏入社会的年轻人，面临着空前陡峭、狭窄的职业起跑线。与此同时，为数众多的普通院校毕业生群体受到的冲击更为显著。

来自主题: AI技术研报

9759 点击 2025-10-14 09:59

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报

8632 点击 2025-10-14 09:58