AI资讯新闻榜单内容搜索-泛化能力

TPAMI | DC-SAM：打破SAM交互限制，基于循环一致性的图像与视频上下文分割方法

上下文分割（In-Context Segmentation）旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础，但将其应用于此仍受限于提示（如点或框）构建，这样的需求不仅制约了批量推理的自动化效率，更使得模型在处理复杂的连续视频时，难以维持时空一致性。

来自主题: AI技术研报

9038 点击 2026-01-20 16:36

面向「空天具身智能」，北航团队提出星座规划新基准丨NeurIPS'25

北航刘偲教授团队提出首个大规模真实星座调度基准AEOS-Bench，更创新性地将Transformer模型的泛化能力与航天工程的专业需求深度融合，训练内嵌时间约束的调度模型AEOS-Former。这一组合为未来的“AI星座规划”奠定了新的技术基准。

来自主题: AI资讯

8606 点击 2025-12-13 15:48

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

近日，腾讯优图实验室联合华东理工大学、北京大学等研究团队在A生成图像检测（AI-Generated Image Detection）泛化问题上展开研究，提出Dual Data Alignment（双重数据对齐，DDA）方法，从数据层面系统性抑制“偏差特征”，显著提升检测器在跨模型、跨数据域场景下的泛化能力。

来自主题: AI技术研报

7938 点击 2025-11-30 15:10

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型（VLA）在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型（VLM）动作生成能力，机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而，这类模型在应对长时序或精细操作任务时，仍然存在性能下降的现象。

来自主题: AI技术研报

10884 点击 2025-11-27 09:48

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

10225 点击 2025-11-17 14:32