AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资。本轮投资由同创伟业领投、老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问。公司半年累计获得近亿元投资,所募资金

来自主题: AI资讯
9019 点击    2026-02-28 10:59
Seedance2.0炸场后,中国黑马登顶昆仑天工SkyReels-V4榜单!AI味没了

Seedance2.0炸场后,中国黑马登顶昆仑天工SkyReels-V4榜单!AI味没了

Seedance2.0炸场后,中国黑马登顶昆仑天工SkyReels-V4榜单!AI味没了

当Seedance 2.0刷屏全网时,一匹中国黑马已悄然冲上全球AI视频榜第二。昆仑天工SkyReels-V4强势杀入顶级牌桌,多模态输入、音画同步直出影院级大片,实力惊艳超群!

来自主题: AI资讯
9027 点击    2026-02-27 17:02
ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

ICLR2026 Oral | 当情感识别不再是分类题:EmotionThinker 让 SpeechLLM 学会“解释情绪”

SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力?为此,研究团队提出了EmotionThinker—— 首个面向可解释情感推理(Explainable Emotion Reasoning)的强化学习框架,尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。

来自主题: AI技术研报
8463 点击    2026-02-25 14:28
多模态DeepResearch,成了!

多模态DeepResearch,成了!

多模态DeepResearch,成了!

DeepResearch 的价值在于把「查资料」变成「做研究」:不是搜到一条就回答,而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编

来自主题: AI技术研报
7774 点击    2026-02-24 15:41
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

来自主题: AI技术研报
10124 点击    2026-02-24 15:35
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

现有 VLA 模型的研究和基准测试多局限于家庭场景(如整理餐桌、折叠衣物),缺乏对专业科学场景(尤其是生物实验室)的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界面)等特点,是评估 VLA 模型精准操作、视觉推理和指令遵循能力的理想场景之一。

来自主题: AI技术研报
7031 点击    2026-02-20 13:00
千问 3.5,用第一性原理打破大模型的不可能三角

千问 3.5,用第一性原理打破大模型的不可能三角

千问 3.5,用第一性原理打破大模型的不可能三角

千问 3.5 总参数量仅 3970 亿,激活参数更是只有 170 亿,不到上一代万亿参数模型 Qwen3-Max 的四分之一,性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。

来自主题: AI资讯
9825 点击    2026-02-16 20:19
刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

没有让我们等待多久,阿里刚刚正式发布并开源了 Qwen3.5 系列模型,页面显示有两款模型,分别为最新大语言模型的 Qwen3.5-Plus,以及定位为开源系列旗舰的 Qwen3.5-397B-A17B。两者均支持文本处理与多模态任务。

来自主题: AI资讯
10789 点击    2026-02-16 20:05
豆包有Seed,火山有种

豆包有Seed,火山有种

豆包有Seed,火山有种

结果今天就等到豆包全家族了。Seedance 2.0都把贾樟柯干Fomo了,现在又上了个最全面的多模态Agent模型,还有人管管字节吗?Seed团队跳动得停不下来了💃烧的全是火山引擎上的Tokens,同时火山引擎上已经有豆包2.0系列的API了。

来自主题: AI资讯
9607 点击    2026-02-15 21:53
国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌、阿里千问旗下通用大模型。

来自主题: AI资讯
7302 点击    2026-02-14 10:38