AI资讯新闻榜单内容搜索-模型

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8352 点击 2025-12-02 15:17

深度｜Hugging Face联创：中国模型成初创公司首选，开源将决定下一轮AI技术主导权

在美国也出现了一种“开源重新兴起”的现象，某种意义上是对中国发展的反应。所以美国开始重新推动大量开源。

来自主题: AI资讯

10043 点击 2025-12-02 15:12

独家丨10个月估值冲上13.2亿美元，前商汤核心人物刘宇的多模态AI创业公司估值狂飙，红杉与IDG集体加注

2025 年 1 月创立了一家专注“实时交互多模态内容”的 AI 初创企业；同年 2 月完成种子轮，由红杉中国和 IDG 资本联合领投；8 月 Pre-A 估值突破 4 亿美元；11 月 A 轮估值突破13.2亿美元。换算一下，这家才刚满一岁的“tiny AI venture”，如今的身价已经站进全球视频模型创业公司第一梯队

来自主题: AI资讯

8417 点击 2025-12-02 11:00

刚刚，霸榜神秘视频模型身份揭晓，原来它就是「David」

终于，几天前登上 Artificial Analysis 榜首的神秘模型 Whisper Thunder (aka) David 现出了真身。

来自主题: AI资讯

9031 点击 2025-12-02 10:47

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

随着大语言模型（LLM）的商业价值快速提升，其昂贵的训练成本使得模型版权保护（IP Protection）成为业界关注的焦点。然而，现有模型版权验证手段（如模型指纹）往往忽略一个关键威胁：攻击者一旦直接窃取模型权重，即拥有对模型的完全控制权，能够逆向指纹 / 水印，或通过修改输出内容绕过指纹验证。

来自主题: AI技术研报

8210 点击 2025-12-02 10:20

字节视频模型超越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案

字节新视频模型Vidi2，理解能力超过了Gemini 3 Pro。

来自主题: AI技术研报

9047 点击 2025-12-02 10:19

88.9 倍性能飙升！JSON Shredding 让 JSON 查询告别全表扫描| Milvus Week

本文为Milvus Week系列第一篇，该系列旨在分享Zilliz、Milvus在系统性能、索引算法和云原生架构上的创新与实践，以下是DAY1内容划重点：

来自主题: AI技术研报

6866 点击 2025-12-02 10:17

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

当今自动驾驶模型越来越强大，摄像头、雷达、Transformer 网络一齐上阵，似乎什么都「看得见」。但真正的挑战在于：模型能否像人一样「想明白」为什么要这么开？

来自主题: AI技术研报

7749 点击 2025-12-02 09:19

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

突袭！ChatGPT发布三周年，DeepSeek嚯一下发出两个模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。前者聚焦平衡实用，适用于日常问答、通用Agent任务、真实应用场景下的工具调用。

来自主题: AI资讯

9310 点击 2025-12-01 21:21

深入AI Agent内核: Google gemini-cli 源码深度解构

随着大语言模型与开发工具链的深度融合，命令行终端正被重塑为开发者的AI协作界面。本文以 Google gemini-cli 为范本，通过源码解构，系统性分析其 Agent 内核、ReAct 工作流、工具调用与上下文管理等核心模块的实现原理。为希望构建终端 Agent 的开发者，提供工程实现的系统化参考。

来自主题: AI技术研报

8086 点击 2025-12-01 16:15