AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

AI视频生成正从“静态输出”迈入“实时交互”阶段,一场内容创作革命即将到来。 近日,中国儒意宣布以1420万美元对爱诗科技进行战略投资,双方将围绕影视、流媒体、游戏等业务展开深度合作。 爱诗科技作为全

来自主题: AI资讯
8298 点击    2026-01-19 18:21
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下,从量化、剪枝到模型蒸馏,各类压缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报
9703 点击    2026-01-19 08:54
AI医疗,谷歌放大招!开源全球首个「AI全能医生」,告别算力焦虑,医院一键部署!

AI医疗,谷歌放大招!开源全球首个「AI全能医生」,告别算力焦虑,医院一键部署!

AI医疗,谷歌放大招!开源全球首个「AI全能医生」,告别算力焦虑,医院一键部署!

刚刚,AI医疗新突破,来自谷歌!这一次,他们直接瞄准了真实临床环境的痛点。为此,谷歌祭出了最新模型MedGemma 1.5,找到了破局答案。相较于此前的MedGemma 1.5,MedGemma 1.5在多模态应用上实现重大突破,融合了:

来自主题: AI资讯
8972 点击    2026-01-18 09:54
国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱

国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱

国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱

今天,首个在国产芯片上完成全程训练的SOTA(最佳水平)多模态模型开源。这是智谱联合华为开源的图像生成模型GLM-Image。从数据到训练的全流程,该模型完全基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成构建。

来自主题: AI资讯
9325 点击    2026-01-14 14:09
听力熊Teeni.AI重磅新品发布 AI随身机器人Mooni Pro

听力熊Teeni.AI重磅新品发布 AI随身机器人Mooni Pro

听力熊Teeni.AI重磅新品发布 AI随身机器人Mooni Pro

1月7日消息,听力熊Teeni.AI发布了青少年AI随身机器人Mooni Pro重磅新品,搭载多模态AI智能体,让孩子能在对话中探索真实世界,我爱音频网报道。

来自主题: AI资讯
9146 点击    2026-01-14 10:46
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?

不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?

不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?

假如你是一个致力于将 AI 引入传统行业的工程团队。现在,你有一个问题:训练一个能看懂复杂机械图纸、设备维护手册或金融研报图表的多模态助手。这个助手不仅要能专业陪聊,更要能精准地识别图纸上的零件标注,或者从密密麻麻的财报截图中提取关键数据。

来自主题: AI技术研报
10019 点击    2026-01-13 16:38
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能 “用语言说清楚” 时,模型还能不能 “看懂”?

来自主题: AI技术研报
9330 点击    2026-01-12 14:07
大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

来自主题: AI技术研报
8804 点击    2026-01-12 10:29
DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报
7491 点击    2026-01-12 10:00
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式

来自主题: AI技术研报
5577 点击    2026-01-10 17:00