AI资讯新闻榜单内容搜索-多模态

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

AI如何理解物理世界？视频联合嵌入预测架构V-JEPA带来新突破，无需硬编码核心知识，在自监督预训练中展现出对直观物理的理解，超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报

10516 点击 2025-03-02 15:47

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

6286 点击 2025-02-28 14:11

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

来自主题: AI技术研报

10696 点击 2025-02-27 16:51

Kimi未来还能够翻盘吗？从公司发展路径上来看，并非没有可能。作为曾经对OpenAI技术跟随最快的公司，Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型，而杨植麟本人也在采访中，表示大模型的未来不仅在于强化学习，还在于多模态能力。这一点似乎也与OpenAI类似。

来自主题: AI资讯

7701 点击 2025-02-27 09:36

在AI行业新诞生的「多模态交互」赛道上，声网发布的「对话式AI引擎」，让所有文本大模型秒变多模态，具备实时语音对话能力，补齐了大模型「失语」的短板。

来自主题: AI资讯

10060 点击 2025-02-26 14:46

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报

10657 点击 2025-02-26 14:07

OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！

来自主题: AI技术研报

8570 点击 2025-02-23 16:23

回应DeepSeek，阶跃星辰亮出“三件套”：开源，多模态推理，AI Agent。

来自主题: AI资讯

6876 点击 2025-02-22 13:26

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

7125 点击 2025-02-21 09:54

2月19日，界面新闻记者获悉，阿里AI To C业务近期开启大规模人员招聘，开放招聘岗位达到数百个，其中AI技术、产品研发岗位占比达到90%，所招聘人员将重点投入到文本、多模态大模型、AI Agent等前沿技术与应用的相关工作中。

来自主题: AI资讯

6366 点击 2025-02-19 14:51