AI资讯新闻榜单内容搜索-端到端

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 端到端
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报
7276 点击    2024-09-07 11:04
ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报
7385 点击    2024-09-06 11:59
【案例分享】小鹏汽车AI大模型上车 创全球首个AI智驾吉尼斯世界纪录™荣誉

【案例分享】小鹏汽车AI大模型上车 创全球首个AI智驾吉尼斯世界纪录™荣誉

【案例分享】小鹏汽车AI大模型上车 创全球首个AI智驾吉尼斯世界纪录™荣誉

在"无人泊车show挑战"环节,64辆小鹏汽车实现了车辆离人自动泊车;在"编队相互绕行挑战"中,6辆小鹏G9以8分57秒创造了AI智驾“语音操控6辆汽车轮流绕桩时间最快”吉尼斯世界纪录荣誉。

来自主题: AI资讯
6800 点击    2024-09-04 22:26
蔚小理端到端:形式不同,悲欢相通

蔚小理端到端:形式不同,悲欢相通

蔚小理端到端:形式不同,悲欢相通

大力投入了,商业还在等待出奇迹。

来自主题: AI资讯
8544 点击    2024-08-20 14:27
到底什么是端到端,蔚来任少卿给我们做了一场通俗易懂的普及

到底什么是端到端,蔚来任少卿给我们做了一场通俗易懂的普及

到底什么是端到端,蔚来任少卿给我们做了一场通俗易懂的普及

7月27号,蔚来举办了一场技术发布会,有芯片亮相,也有整车操作系统发布,有Nio Phone的正式上市,也有智能驾驶世界模型NWM的展示。发布会后的第二天,虎嗅汽车来到蔚来位于上海漕河泾的办公室,和蔚来智能驾驶副总裁任少卿聊了两个小时。

来自主题: AI资讯
6421 点击    2024-08-07 11:32
领英 AI 落地复盘:多 Agent 配合、端到端输出

领英 AI 落地复盘:多 Agent 配合、端到端输出

领英 AI 落地复盘:多 Agent 配合、端到端输出

在过去的六个月,LinkedIn 开发了基于自身业务的生成式AI应用。领英团队希望能重新设计求职流程,改变专业内容的浏览方式。

来自主题: AI技术研报
9524 点击    2024-08-04 13:26
GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。

来自主题: AI技术研报
9592 点击    2024-08-03 14:38
OpenDevin出技术报告了,大模型Agent开发者必读

OpenDevin出技术报告了,大模型Agent开发者必读

OpenDevin出技术报告了,大模型Agent开发者必读

今年 3 月,「全球首位 AI 软件工程师」Devin 引爆了 AI 圈。与此前 AI 编程助手不同的是,Devin 并不只是辅助编程的角色,而是能够独立地、端到端地完成整个开发项目。

来自主题: AI技术研报
8215 点击    2024-08-02 16:16