AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报
8915 点击    2024-11-28 14:16
Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

在人工智能领域,与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统,更是难上加难。尽管像GPT-4这样的语言模型在对话流畅性和上下文理解上取得了长足进步,但在实际应用中,这些模型仍然存在不足之处:

来自主题: AI技术研报
9028 点击    2024-11-28 09:53
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
8985 点击    2024-11-27 16:50
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

来自主题: AI技术研报
5612 点击    2024-11-27 14:41
阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

不知道从何时起,脑海里就有着阶跃星辰的多模态能力遥遥领先的印象。 无论去哪旅游,以前是用谷歌地图,现在基本都用「跃问」,看到长得奇特的建筑就拍来问问,还能跟 AI Chat 一下历史。 这不,最近来新加坡出差了,顺便旅旅游,就又用上了「跃问」。

来自主题: AI资讯
6273 点击    2024-11-26 09:17
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

来自主题: AI技术研报
7084 点击    2024-11-25 15:51
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
8592 点击    2024-11-22 15:54
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报
6328 点击    2024-11-22 14:41
发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

一觉醒来,Mistral AI 又发力了。 就在今天,Mistral AI 多模态家族迎来了第二位成员:一个名为 Pixtral Large 的超大杯基础模型。

来自主题: AI资讯
5652 点击    2024-11-20 08:51
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5747 点击    2024-11-19 21:01