AI资讯新闻榜单内容搜索-编码器

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 编码器
重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

刚刚,谷歌DeepMind发布了Gemma 4 12B。一句话概括这个模型的定位:把原本需要高端服务器才能跑的多模态智能,装进你的笔记本电脑里。它填补的是Gemma家族里一个关键空缺:比边缘端的E4B更强,比26B混合专家模型(MoE)更轻。而且在整个Gemma 4系列里,它是第一个支持原生音频输入的中等规模模型。

来自主题: AI资讯
8811 点击    2026-06-04 09:46
阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash。该模型最大特点就是多(模)、快(速)、好(用)、省(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。

来自主题: AI资讯
9130 点击    2026-05-29 17:06
刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律;与此同时,学界却在悄悄质疑另一个更根本的浪费:传统 VAE 对图像语义几乎一无所知,而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型,真的需要从零开始「发明」对图像的理解吗?

来自主题: AI技术研报
8370 点击    2026-05-21 16:45
Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。

来自主题: AI技术研报
8768 点击    2026-05-15 10:37
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

来自主题: AI技术研报
8998 点击    2026-05-08 14:33
DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

来自主题: AI技术研报
6727 点击    2026-01-27 16:51
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好

LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好

LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好

编辑|Panda 在文生图模型的技术版图中,VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX,再到一系列扩散 Transformer,主流路线高度一致:先用 VAE 压缩视

来自主题: AI技术研报
7744 点击    2026-01-24 10:52
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报
10715 点击    2026-01-15 09:20
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。

来自主题: AI技术研报
8835 点击    2025-11-03 09:50