AI资讯新闻榜单内容搜索-GE

Gemini 大模型逆袭，给了 Google Cloud「AI 基建」的勇气

在 Gemini 的爆火之后，Google Cloud 正在成为真正意义上的「基础设施」。

来自主题: AI资讯

7924 点击 2025-04-11 10:34

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

在现实世界中，如何让智能体理解并挖掘 3D 场景中可交互的部位（Affordance）对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning，就是希望模型能够根据视觉和语言线索，自动推理出物体可供哪些操作、以及可交互区域的空间位置，从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

来自主题: AI技术研报

6054 点击 2025-04-11 09:55

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

近年来，端到端（End-to-End，E2E）自动驾驶技术不断进步，但在复杂的闭环交互环境中，由于其因果推理能力有限，仍然难以做出准确决策。虽然视觉 - 语言大模型（Vision-Language Model，VLM）凭借其卓越的理解和推理能力，为端到端自动驾驶带来了新的希望，但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

来自主题: AI技术研报

8627 点击 2025-04-11 09:28

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

商汤最新升级的日日新SenseNova V6解锁的新能力—— 原生多模态通用大模型，采用6000亿参数MoE架构，实现文本、图像和视频的原生融合。从性能评测来看，SenseNova V6已经在纯文本任务和多模态任务中，多项指标均已超越GPT-4.5、Gemini 2.0 Pro，并全面超越DeepSeek V3：

来自主题: AI资讯

10165 点击 2025-04-10 23:17