AI资讯新闻榜单内容搜索-编码器

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 编码器
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报
6300 点击    2025-03-02 13:22
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报
6311 点击    2025-02-07 16:02
OpenAI Cusor 已破解低调使用

OpenAI Cusor 已破解低调使用

OpenAI Cusor 已破解低调使用

Cusor,一个AI编码器,如果仅仅是一个编码器,在chatGPT,百度,阿里,腾讯,字节等众多同类AI编辑器中不是最早的AI编辑器,也不是最先AI赋能的插件或者程序,但是一个支持自然语言,更适合程序员体质的Cusor凭什么脱颖而出?

来自主题: AI资讯
7033 点击    2025-01-16 13:57
港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。

来自主题: AI技术研报
5342 点击    2024-12-30 13:51
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
7555 点击    2024-12-18 14:21
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
9005 点击    2024-11-27 16:50
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
8625 点击    2024-11-22 15:54
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
3358 点击    2024-09-29 14:44
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

来自主题: AI技术研报
5840 点击    2024-08-20 14:36