AI资讯新闻榜单内容搜索-长上下文

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

经历了前段时间的鸡飞狗跳，扎克伯格的投资似乎终于初见成效。

来自主题: AI技术研报

7300 点击 2025-09-08 16:30

每月20元！智谱GLM-4.5杀入Claude Code，开启编程API“包月”时代

这段时间 AI 编程的热度完全没退，一个原因是国内接连推出开源了不少针对编程优化的大模型，主打长上下文、Agent 智能体、工具调用，几乎成了标配，成了 Claude Code 的国产替代，比如 GLM-4.5、DeepSeek V3.1、Kimi K2。

来自主题: AI资讯

12184 点击 2025-09-02 11:41

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

8172 点击 2025-08-19 11:35

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会，邀请了来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾，就模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。

来自主题: AI资讯

8251 点击 2025-07-20 12:37

重塑记忆架构：LLM正在安装「操作系统」

超长上下文窗口的大模型也会经常「失忆」，「记忆」也是需要管理的。

来自主题: AI技术研报

8712 点击 2025-07-16 16:26

AI版三个臭皮匠！ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分

ChatGPT的对话流畅性、Gemini的多模态能力、DeepSeek的长上下文分析……

来自主题: AI技术研报

8769 点击 2025-07-09 15:05

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码（RoPE）及其变体因其长上下文处理能力而被广泛采用，但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报

8845 点击 2025-07-04 10:44

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

7217 点击 2025-06-30 10:24

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

8249 点击 2025-06-16 15:24

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包大模型1.6惊艳亮相，成为国内首款多模态SOTA模型，256k对话窗口，深度思考最长上下文。它不仅能看会想，还能动手操作GUI，国内最有潜力考清北。

来自主题: AI技术研报

8221 点击 2025-06-12 17:04