AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配,未来将逐步推出手机端应用,为用户带来更智能、更便捷的体验。

来自主题: AI技术研报
5453 点击    2024-11-29 15:30
周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

最近,奥特曼豪掷数千万美金购买域名、组建AI浏览器团队,展现了互联网的时代轮回,标志着AI互联网时代的来临。AI改造互联网,首当其冲的就是搜索引擎。几乎与奥特曼的动作同步,纳米搜索的出现,代表着我们正式进入「多模态内容创作引擎」的搜索引擎3.0时代。

来自主题: AI资讯
9426 点击    2024-11-28 21:01
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报
8571 点击    2024-11-28 14:16
Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

在人工智能领域,与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统,更是难上加难。尽管像GPT-4这样的语言模型在对话流畅性和上下文理解上取得了长足进步,但在实际应用中,这些模型仍然存在不足之处:

来自主题: AI技术研报
8697 点击    2024-11-28 09:53
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
8591 点击    2024-11-27 16:50
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

来自主题: AI技术研报
5374 点击    2024-11-27 14:41
阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

不知道从何时起,脑海里就有着阶跃星辰的多模态能力遥遥领先的印象。 无论去哪旅游,以前是用谷歌地图,现在基本都用「跃问」,看到长得奇特的建筑就拍来问问,还能跟 AI Chat 一下历史。 这不,最近来新加坡出差了,顺便旅旅游,就又用上了「跃问」。

来自主题: AI资讯
6137 点击    2024-11-26 09:17
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

来自主题: AI技术研报
6748 点击    2024-11-25 15:51
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
8352 点击    2024-11-22 15:54
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报
6023 点击    2024-11-22 14:41