AI资讯新闻榜单内容搜索-上下文

2倍提速！KV缓存压缩不只看重要性，上交大团队让模型推理「又快又稳」 | ICLR'26

长上下文推理已经成了VLM/LLM的默认形态。

来自主题: AI技术研报

6429 点击 2026-04-01 09:40

对抗KV Cache压缩的脆弱性：两行代码以最坏风险控制防御底层假设崩塌

随着大模型长上下文能力快速增长，海量 KV Cache 存储需求急剧增加，各类 KV Cache 压缩方法如雨后春笋般涌现。然而，这些方案在真实场景中的工程落地却常常陷入困境。

来自主题: AI技术研报

9534 点击 2026-03-25 13:41

东方理工团队提出HiDrop：重构MLLM计算路径，压缩90%视觉Token实现2.2倍加速

随着多模态大语言模型（MLLM）支持更长上下文，高分辨率图像和长视频会产生远多于文本的视觉 Token，在自注意力二次复杂度下迅速成为效率瓶颈。

来自主题: AI技术研报

9716 点击 2026-03-24 10:13

万字讲透OpenClaw🦞从"能用"到"真好用"的分水岭： Workspace 深度解析

一边的人，每次跟 Agent 说话都像重新 onboarding：得再讲一遍背景、偏好和上下文。另一边的人，Agent 已经知道自己是谁、该怎么说话、用户讨厌什么，也记得上次积累下来的东西。这条分界线，叫 workspace。

来自主题: AI技术研报

10939 点击 2026-03-22 10:01

从经历到知识：UIUC、清华PlugMem如何重构Agent记忆

现在的AI agent往往把长交互历史直接存起来，但很难高效复用。最朴素的方法直接从「原始记忆」里检索，但常常把模型淹没在冗长、低价值的上下文里。PlugMem把经验转化为结构化、可复用的知识，并提出一个任务无关（task-agnostic）的统一记忆模块，在多种Agent基准上提升性能，同时消耗更少。

来自主题: AI技术研报

8475 点击 2026-03-22 09:37

突破一亿Token极限：EverMind提出MSA架构，实现大模型高效端到端长时记忆

人的智能能力主要由推理能力和长期记忆能力构成。近年来，大模型的推理能力一直处于快速发展过程，但大模型的长期记忆能力一直受限于上下文长度，无法取得突破。在历史上，曾经有多种路线进行尝试，但都无法突破扩展性（Scalability）、精度（Precision）和效率（Efficiency）的不可能三角。

来自主题: AI技术研报

10430 点击 2026-03-19 17:02

超越MLA！新架构MLRA百万token，解码最高2.8倍速 | ICLR'26

MLRA通过拆分KV缓存为四个并行分支，显著降低显存占用并实现4路张量并行。推理速度比MLA最高快2.8倍，支持百万级上下文，且模型质量更优。无需牺牲性能，即可高效扩展长文本处理能力。

来自主题: AI技术研报

10789 点击 2026-03-19 15:25

AI助手现在认路了：谷歌地图直接「长」进大脑

谷歌DeepMind刚刚为Gemini API放了一个大招：内置工具和自定义函数终于可以在同一次调用里混着用了。再加上跨工具的「上下文环流」和Google Maps原生接入，Agent开发的编排噩梦正在终结。

来自主题: AI资讯

7555 点击 2026-03-19 15:23

工程知识引擎：Harness Engineering体系下的工程知识底座

在AI编程智能体快速演进的今天，一个核心痛点愈发凸显：AI能写代码，却难以理解代码。更深层的问题是：即便模型能力再强，若缺乏结构化的工程约束与上下文支撑，智能体也难以稳定、可预期地完成真实工程任务。

来自主题: AI技术研报

9791 点击 2026-03-19 10:48

当AI第一次读完整本基因之书，十亿参数单细胞大模型能干什么？

十亿参数单细胞基础模型scLong不再只看少数高表达基因，而是把一个细胞里接近 2.8 万个基因都纳入建模，并结合 Gene Ontology（GO）的生物学知识，去理解更完整的基因上下文。

来自主题: AI技术研报

7077 点击 2026-03-19 10:23