AI资讯新闻榜单内容搜索-开源多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 开源多模态

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

来自主题: AI资讯

9231 点击 2025-02-18 14:43

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

DeepSeek大爆出圈，现在连夜发布新模型——多模态Janus-Pro-7B，发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

来自主题: AI资讯

11913 点击 2025-01-28 10:54

刚刚，多模态推理模型QVQ全新开源

刚刚，多模态推理模型QVQ全新开源

刚刚，多模态推理模型QVQ全新开源

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中，QVQ 取得了 70.3 的优异成绩，并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理，QVQ 在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。

来自主题: AI资讯

11685 点击 2024-12-25 08:47

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度，但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报

10527 点击 2024-11-28 14:16

Fixie AI 推出 Ultravox v0.4.1：专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1：专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1：专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

在人工智能领域，与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统，更是难上加难。尽管像GPT-4这样的语言模型在对话流畅性和上下文理解上取得了长足进步，但在实际应用中，这些模型仍然存在不足之处：

来自主题: AI技术研报

10410 点击 2024-11-28 09:53

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

6363 点击 2024-10-14 15:46

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

Molmo，开源多模态模型正在发力！

来自主题: AI资讯

9029 点击 2024-10-05 13:30

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯

4672 点击 2024-09-29 14:44

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

新的最强开源多模态大模型来了！

来自主题: AI技术研报

9905 点击 2024-08-30 15:24

万亿token！史上最大多模态数据集诞生

万亿token！史上最大多模态数据集诞生

万亿token！史上最大多模态数据集诞生

开源多模态大模型或将开始腾飞。

来自主题: AI技术研报

8220 点击 2024-07-27 19:29

上一页当前第3页,共4页下一页