AI资讯新闻榜单内容搜索-训练

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

对抗样本（adversarial examples）的迁移性（transferability）—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。尽管现有研究已提出复杂多样的迁移攻击方法，却仍缺乏系统且公平的方法对比分析：（1）针对攻击迁移性，未采用公平超参设置的同类攻击对比分析；（2）针对攻击隐蔽性，缺乏多样指标。

来自主题: AI技术研报

7541 点击 2025-10-29 16:05

世界模型==VQA？机器人不用想象画面，预测语义就够了

对于机器人来说，世界模型真的有必要想象出精确的未来画面吗？在一篇新论文中，来自华盛顿大学、索尼 AI 的研究者提出了这个疑问。

来自主题: AI技术研报

6948 点击 2025-10-29 10:44

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10607 点击 2025-10-29 10:24

仅需10%思维链标注，等同全量性能！计算所发布推理监督新范式

大语言模型（LLMs）推理能力近年来快速提升，但传统方法依赖大量昂贵的人工标注思维链。中国科学院计算所团队提出新框架PARO，通过让模型学习固定推理模式自动生成思维链，只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的领域，为高效推理监督提供了全新思路。

来自主题: AI技术研报

7000 点击 2025-10-29 10:15

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

在当前评测生成式模型代码能力的浪潮中，传统依赖人工编写的算法基准测试集，正日益暴露出可扩展性不足与数据污染严重两大瓶颈。

来自主题: AI技术研报

7974 点击 2025-10-29 10:03

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7831 点击 2025-10-29 09:53