AI资讯新闻榜单内容搜索-多模态AI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态AI
5个月估值120亿!OpenAI前CTO自曝首个多模态AI,竟要免费开源

5个月估值120亿!OpenAI前CTO自曝首个多模态AI,竟要免费开源

5个月估值120亿!OpenAI前CTO自曝首个多模态AI,竟要免费开源

交易成了!OpenAI前CTO初创拿到了20亿种子轮融资,成立5个月公司估值冲到120亿美元。未来几个月,这个汇聚OpenAI顶尖大佬团队,将发布首个多模态AI产品,还会开源部分组件。

来自主题: AI资讯
5695 点击    2025-07-16 12:23
刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

刚刚,「吉卜力狂欢」GPT-4o功臣被Meta挖走!华南理工女学霸曾与奥特曼同台

GPT-4o引爆全球「吉卜力风格」风潮后,其核心成员——华南理工学霸Lu Liu与伯克利博士Allan Jabri——双双跳槽Meta,两人曾在OpenAI主导多模态AI研究,与奥特曼同台展示关键功能。此次挖角再次凸显OpenAI内部动荡后的人才流失危机。

来自主题: AI资讯
7319 点击    2025-07-12 19:19
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报
6758 点击    2025-04-25 09:56
微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报
6046 点击    2025-03-10 22:22
重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!

嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目 ——VLM-R1!它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多模态领域的想象空间!

来自主题: AI技术研报
6048 点击    2025-02-21 09:54
2024 AI大模型年度十大关键词发布丨亿欧年度盘点

2024 AI大模型年度十大关键词发布丨亿欧年度盘点

2024 AI大模型年度十大关键词发布丨亿欧年度盘点

从开源与闭源的竞争,到多模态AI与自监督学习,再到能效优化和AI伦理的深入探讨,AI技术的演进将继续带来前所未有的创新机会。

来自主题: AI资讯
6514 点击    2024-12-24 15:21
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。

来自主题: AI资讯
7827 点击    2024-12-13 17:05