仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42% 仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42% 关键词: AI,模型训练,OmniSIFT,人工智能 一段几十秒的音视频,上万Token,一半以上是冗余——Omni-LLM的计算浪费,比想象中更严重。 来自主题: AI技术研报 7853 点击 2026-03-11 15:06