AI资讯新闻榜单内容搜索-模型训练

Depth Anything再出新作！浙大&港大出品：零样本，优化任意深度图

浙江大学与港大团队推出「Prior Depth Anything」，把稀疏的深度传感器数据与AI完整深度图融合，一键补洞、降噪、提分辨率，让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练，就能直接提升VGGT等3D模型的深度质量，零样本刷新多项深度补全、超分、修复纪录。

来自主题: AI技术研报

8922 点击 2025-09-24 09:52

GUI智能体训练迎来新范式！半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上，推出全新研究成果——UI-S1，提出了一种名为半在线强化学习（Semi-online Reinforcement Learning）的创新训练范式。

来自主题: AI技术研报

8831 点击 2025-09-24 09:49

帮你把Agent从玩具变成产品，Google发布重磅指南，3章内容填平生产化鸿沟

谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》（Google Cloud 创业公司技术指南：AI 代理）这是一份非常详尽和全面的手册，这篇文档要解决的问题：原型到生产之间最大鸿沟，Agent的非确定性、复杂推理轨迹如何验证、如何部署与运维等。初创公司业务负责人或开发者看完后能获得一个系统性的、

来自主题: AI技术研报

10884 点击 2025-09-23 16:35

故意“装菜”答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究

OpenAI携手APOLLO的新研究发现，大模型会对指令阳奉阴违，为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……比如，o3模型在化学测试中，通过推理得出如果正确率超过50%将不会被部署的结论后，

来自主题: AI技术研报

10530 点击 2025-09-23 16:34

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

来自主题: AI技术研报

8799 点击 2025-09-23 14:59

快手解密「AI印钞机」，首提生成式强化学习出价技术，为平台实现超过3%的广告收入提升

CBD 算法则是快手商业化算法团队在本月初公布的新方法，全名 Causal auto-Bidding method based on Diffusion completer-aligner，即基于扩散式补全器-对齐器的因果自动出价方法。

来自主题: AI技术研报

8103 点击 2025-09-23 13:29

从Transformer到GPT-5，听听OpenAI科学家 Lukasz 的“大模型第一性思考”

2017 年，一篇标题看似简单、甚至有些狂妄的论文在线上出现：《Attention Is All You Need》。

来自主题: AI资讯

9506 点击 2025-09-23 10:44

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

LeCun 这次不是批评 LLM，而是亲自改造。当前 LLM 的训练（包括预训练、微调和评估）主要依赖于在「输入空间」进行重构与生成，例如预测下一个词。而在 CV 领域，基于「嵌入空间」的训练目标，如联合嵌入预测架构（JEPA），已被证明远优于在输入空间操作的同类方法。

来自主题: AI技术研报

8754 点击 2025-09-23 10:12

突破后训练瓶颈？Meta超级智能实验室又一力作：CaT解决RL监督难题

为了回答这一问题，来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想：推理计算是否可以替代缺失的监督？本文认为答案是肯定的，他们提出了一种名为 CaT（Compute as Teacher）的方法，核心思想是把推理时的额外计算当作教师信号，在缺乏人工标注或可验证答案时，也能为大模型提供监督信号。

来自主题: AI技术研报

6503 点击 2025-09-23 10:09

Prompt的尽头，居然是MBTI。

论文的标题很学术，叫《心理学增强AI智能体》但是大白话翻译一下就是，想要让大模型更好地完成任务，你们可能不需要那些动辄几百上千字的复杂Prompt，不需要什么思维链、思维图谱，甚至不需要那些精巧的指令。

来自主题: AI技术研报

8796 点击 2025-09-23 10:08