AI资讯新闻榜单内容搜索-GAP

马斯克又盯上AI基建：特斯拉要卖“算力积木”了

特斯拉也盯上AI基建生意了。

来自主题: AI资讯

8412 点击 2026-06-22 16:52

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

导读：视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token，用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于，模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里；如果模型无法稳定读取这些 token，它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报

6030 点击 2026-06-16 13:56

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

a16z 昨天发了一张图，把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是： A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between

来自主题: AI技术研报

13700 点击 2026-02-22 23:06

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

7230 点击 2026-01-13 10:20

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月，联合十余位胸外科医生共同打磨，发布了全球首个大模型专病循证能力的评测框架—— GAPS（Grounding, Adequacy, Perturbation, Safety），及其配套评测集 GAPS-NSCLC-preview。

来自主题: AI技术研报

11302 点击 2025-12-29 15:06

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」，过程感知视频理解如何找到「状态」锚点？

在具身智能与视频理解飞速发展的今天，如何让 AI 真正 “看懂” 复杂的操作步骤？北京航空航天大学陆峰教授团队联合东京大学，提出视频理解新框架。该工作引入了 “状态（State）” 作为视觉锚点，解决了抽象文本指令与具象视频之间的对齐难题，已被人工智能顶级会议 AAAI 2026 接收。

来自主题: AI资讯

8533 点击 2025-12-06 11:13

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了，代码已开源

TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器，能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染，同时具备良好的时序一致性和低计算成本开销，使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强，帮助获得具身智能训练所需的海量高质量数据。

来自主题: AI技术研报

8611 点击 2025-09-27 11:06