AI资讯新闻榜单内容搜索-编码器

刚刚，LeCun团队让世界模型学会持续学习！

刚刚，纽约大学联合LeCun初创AMI带来JEPA系列的最新成果——AdaJEPA。与过去在预训练结束后就冻结参数的世界模型不同，AdaJEPA能够在与环境交互中，基于测试时自适应（Test-Time Adaptation, TTA），实时调整世界模型的编码器和预测器参数，从而实现持续学习。

来自主题: AI技术研报

9634 点击 2026-07-03 16:12

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7779 点击 2026-06-24 16:06

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

刚刚，谷歌DeepMind发布了Gemma 4 12B。一句话概括这个模型的定位：把原本需要高端服务器才能跑的多模态智能，装进你的笔记本电脑里。它填补的是Gemma家族里一个关键空缺：比边缘端的E4B更强，比26B混合专家模型（MoE）更轻。而且在整个Gemma 4系列里，它是第一个支持原生音频输入的中等规模模型。

来自主题: AI资讯

10117 点击 2026-06-04 09:46

阶跃发布Step 3.7 Flash：一款为「烧钱时代」准备的Agent模型

继 Step 3.5 Flash 后，阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash。该模型最大特点就是多（模）、快（速）、好（用）、省（钱）。总参数 196B，采用稀疏 MoE 架构，推理激活参数仅 11B，配备 1.88B ViT 视觉编码器，推理速度最高 400 TPS，支持 256K 上下文。

来自主题: AI资讯

9760 点击 2026-05-29 17:06

刚刚，谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律；与此同时，学界却在悄悄质疑另一个更根本的浪费：传统 VAE 对图像语义几乎一无所知，而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型，真的需要从零开始「发明」对图像的理解吗？

来自主题: AI技术研报

8891 点击 2026-05-21 16:45

Claude脑子里想的，被翻译成人话了！Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了！就在今天，Anthropic开源了一台AI读心机器，然而它跑出来的第一批成果却让人触目惊心。

来自主题: AI技术研报

9032 点击 2026-05-15 10:37

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），撬开这个黑箱。

来自主题: AI技术研报

9995 点击 2026-05-08 14:33