AI资讯新闻榜单内容搜索-多模态

产品获马斯克点赞，AI机器人公司「TangibleFuture」完成数百万天使轮融资

基于机器人硬件、多模态技术和内容叙事的融合。

来自主题: AI资讯

8407 点击 2024-12-14 13:33

我扒出了Gemini 2.0超实时多模态幕后的黑科技，第六代TPU芯片Trillium！

OpenAI 放出了 o1 Pro、GPT-4o 高级语音、GPTCanavas，就跟孔雀开屏一样～谷歌最近的大动作是发布了 Gemini 2.0 嘛！2.0 比 1.5 版本快一倍，而且是原生的多模态大模型，能输入和生成语言、声音、图片、视频等。

来自主题: AI资讯

9454 点击 2024-12-13 17:12

深度｜OpenAI实时API技术细节揭秘，实时API支持函数调用和上下文管理，简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流，使得多模态AI应用（如语音对话Agent）得以实现。它通过WebSocket连接管理对话状态，并提供短语结束检测和语音活动检测（VAD）功能，大大简化了实时语音应用的开发。

来自主题: AI资讯

11232 点击 2024-12-13 17:05

银河通用王鹤通向通用机器人：合成数据驱动的具身多模态大模型

在探索迈向AGI（通用人工智能）物理世界的路径中，通用机器人被视作关键载体。

来自主题: AI资讯

11212 点击 2024-12-13 16:57

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

来自主题: AI技术研报

6913 点击 2024-12-12 21:57

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

昨天深夜，OpenAI彻底被谷歌狙击，震撼亮相的Gemini 2.0掀起智能体革命，原生多模态的多项惊人demo预示着：智能体时代，谷歌已经走在了最前面。

来自主题: AI资讯

8821 点击 2024-12-12 14:59

Sora终于来了，但多模态AI呼唤实用主义

随着ChatGPT等大语言模型的问世，人工智能进入了一个全新的时代。在这股浪潮中，多模态AI技术成为业界竞相追逐的目标，OpenAI的Sora更是将这股热情推向高潮。

来自主题: AI资讯

8853 点击 2024-12-12 14:27

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

谷歌放大招推出 Gemini 2.0 Flash 模型，抢跑外加狙击OpenAI，正式开启Agent时代，诚意十足，全部免费使用

来自主题: AI资讯

4133 点击 2024-12-12 12:12

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

继量子芯片之后，谷歌又来抢“OpenAI双12直播”的流量了！就在刚刚，谷歌新一代大模型Gemini 2.0突然登场，再次由谷歌CEO皮猜亲自官宣。

来自主题: AI资讯

7631 点击 2024-12-12 09:14

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

多模态大模型在听觉上，居然也出现了「9.11>9.8」的现象，音量大小这种简单问题都识别不了！港中文、斯坦福等大学联合发布的AV-Odyssey基准测试，包含26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保测试的深度和广度。

来自主题: AI技术研报

8485 点击 2024-12-11 16:46

AI资讯新闻榜单内容搜索-多模态

产品获马斯克点赞，AI机器人公司「TangibleFuture」完成数百万天使轮融资

我扒出了Gemini 2.0超实时多模态幕后的黑科技，第六代TPU芯片Trillium！

深度｜OpenAI实时API技术细节揭秘，实时API支持函数调用和上下文管理，简化了多轮对话中的对话历史管理

银河通用王鹤 通向通用机器人：合成数据驱动的具身多模态大模型

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

Sora终于来了，但多模态AI呼唤实用主义

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

银河通用王鹤通向通用机器人：合成数据驱动的具身多模态大模型