AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

AI如何理解物理世界?视频联合嵌入预测架构V-JEPA带来新突破,无需硬编码核心知识,在自监督预训练中展现出对直观物理的理解,超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报
9367 点击    2025-03-02 15:47
微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。

来自主题: AI技术研报
5144 点击    2025-02-28 14:11
杨植麟翻身,还要靠OpenAI

杨植麟翻身,还要靠OpenAI

杨植麟翻身,还要靠OpenAI

Kimi未来还能够翻盘吗? 从公司发展路径上来看,并非没有可能。 作为曾经对OpenAI技术跟随最快的公司,Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型,而杨植麟本人也在采访中,表示大模型的未来不仅在于强化学习,还在于多模态能力。 这一点似乎也与OpenAI类似。

来自主题: AI资讯
6325 点击    2025-02-27 09:36
DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

在AI行业新诞生的「多模态交互」赛道上,声网发布的「对话式AI引擎」,让所有文本大模型秒变多模态,具备实时语音对话能力,补齐了大模型「失语」的短板。

来自主题: AI资讯
8608 点击    2025-02-26 14:46
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报
9491 点击    2025-02-26 14:07
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

来自主题: AI技术研报
6088 点击    2025-02-21 09:54
阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

2月19日,界面新闻记者获悉,阿里AI To C业务近期开启大规模人员招聘,开放招聘岗位达到数百个,其中AI技术、产品研发岗位占比达到90%,所招聘人员将重点投入到文本、多模态大模型、AI Agent等前沿技术与应用的相关工作中。

来自主题: AI资讯
5096 点击    2025-02-19 14:51