AI资讯新闻榜单内容搜索-多模态AI

刚刚，「吉卜力狂欢」GPT-4o功臣被Meta挖走！华南理工女学霸曾与奥特曼同台

GPT-4o引爆全球「吉卜力风格」风潮后，其核心成员——华南理工学霸Lu Liu与伯克利博士Allan Jabri——双双跳槽Meta，两人曾在OpenAI主导多模态AI研究，与奥特曼同台展示关键功能。此次挖角再次凸显OpenAI内部动荡后的人才流失危机。

来自主题: AI资讯

9564 点击 2025-07-12 19:19

AI大牛梅涛坐镇，全新多模态AI问世！

来自主题: AI资讯

11589 点击 2025-06-25 12:11

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案，在一个框架内兼顾了图文理解与图像生成任务，并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报

8506 点击 2025-04-25 09:56

评估多模态AI模型的那些复杂测试，可能有一半都是“重复劳动”！

来自主题: AI技术研报

10569 点击 2025-03-19 10:37

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报

8481 点击 2025-03-10 22:22

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

8178 点击 2025-02-21 09:54

从开源与闭源的竞争，到多模态AI与自监督学习，再到能效优化和AI伦理的深入探讨，AI技术的演进将继续带来前所未有的创新机会。

来自主题: AI资讯

8784 点击 2024-12-24 15:21

豆包的“眼睛”升级了，现在让它看一眼APP截图，就能直接给你生成代码！

来自主题: AI资讯

8941 点击 2024-12-19 20:53

OpenAI的实时API支持低延迟、双向音频流，使得多模态AI应用（如语音对话Agent）得以实现。它通过WebSocket连接管理对话状态，并提供短语结束检测和语音活动检测（VAD）功能，大大简化了实时语音应用的开发。

来自主题: AI资讯

11202 点击 2024-12-13 17:05

随着ChatGPT等大语言模型的问世，人工智能进入了一个全新的时代。在这股浪潮中，多模态AI技术成为业界竞相追逐的目标，OpenAI的Sora更是将这股热情推向高潮。

来自主题: AI资讯

8839 点击 2024-12-12 14:27