又是疯狂的一周，全世界都「AI 麻了」！

10494点击 2024-05-20 10:02

是因为「劳动节」吗？全世界所有的公司，都选择在 5 月第三周，将最新的 AI 产品和技术，集中释放。

丧心病狂的一周！

铺垫了许久的「周一见」，OpenAI 用 GPT-4o 夺走了注意力。24 小时后的发布会上，谷歌也没有「掉链子」，Veo 视频模型、Project Astra、新版 AI 搜索都留下了惊艳的记忆点。

地表最强但风格迥异的两场发布会，只在一点上达成共识——电影《Her》一般的超强语音助手（GPT-4o 和 Project Astra），这也变相公布了 2024 年大模型赛道的竞赛点——GPT-4o 和 Astra 背后的多模态融合技术。

大洋彼岸的另一端，姗姗来迟的字节跳动发布了豆包大模型家族，腾讯终于交出了「GPTs」和大模型助手 App 的答卷。

今天看来，无论是「拖家带口」的大厂，还是「没有包袱」的创业公司，产品形态都一再扩展：从聊天机器人，到 AI 搜索、「GPTs」、多模态语音助手.... 玩得越来越花。

不知道你麻没麻，反正我们是幸福地麻了。

5 月 13 日（周一）

AI 化身/人形智能体正在快速演进：宇树发布 Unitree G1 人形机器人

¥9.9 万元起，远低于行业售价

大语言模型出圈，让可以实现具身智能的人形机器人火了。

2023 年 8 月，宇树科技发布了人形机器人 H1，预售价为 9 万美元（约合 65 万元人民币）。本周，宇树推出的新版人形机器人 Unitree G1 将价格降到 9.9 万元人民币起，便宜了超 80%。

与第一代产品相比，Unitree G1 能力显著提升：开瓶盖、砸核桃、颠锅、跑步、舞棍、自我蜷缩……在宇树科技发布的产品演示视频里，身体和双腿能旋转近 360°，Unitree G1 像人类一样用机械双臂灵活地完成一系列工作。

又是疯狂的一周，全世界都「AI 麻了」！

开源闭源并进：零一万物发布千亿参数 Yi-Large 模型

开源构建生态，闭源探索AI上限

零一万物成立一周年之际，其千亿参数 Yi-Large 闭源模型正式亮相，在斯坦福最新的 AlpacaEval 2.0 达到全球大模型 Win Rate 第一。

同时，零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列，每个版本达到同尺寸中 SOTA 性能最佳。

又是疯狂的一周，全世界都「AI 麻了」！

5 月 14 日（周二）

「Her」真的来了：「GPT-4o」将语音助手带到了新高度

多模态融合模型，只是工程的进步吗？

OpenAI 发布了新一代旗舰模型 GPT-4o，它可以让人们在手机上与 ChatGPT 对话，就像他们与 Siri 和其他语音助手对话一样。不同的是，ChatGPT 语音助手的理解能力有了质的飞跃，还可以分析和讨论它所看到的图像或视频，并能识别用户说话时的不同情绪。

有了 GPT-4o 的加持，ChatGPT 可以根据你的想法引导你做数学题目、按照你的实时要求讲一个睡前故事。OpenAI 称 GPT-4o 是为了创建一个对音频、图像和文本有更深入、更自然理解的模型，这依旧是为了向 AGI 目标行进。

OpenAI 的发布，也在 AI 圈引起了广泛讨论。业界普遍认为，GPT-4o 的惊艳之处在于两点：1）将语音交互延迟缩短到 300ms；2）端到端多模态原生大模型

P.S.: 留一个观察作业：GPT-4o 会显著提升 ChatGPT 的日活和用户粘性吗？有了更高 AI 能力的智能助手，2016 年的百箱大战会席卷重来？Siri 一样的语音助手会成为入口级的必争之地？

又是疯狂的一周，全世界都「AI 麻了」！

5 月 15 日（周三）

没有一款产品没有被 AI 改造：谷歌全面进入 Gemini 时代

Sora 尚且是科技巨头的选做题，但多模态融合就是大模型公司的必做题。

提了 121 次 AI，谷歌 I/O 2024 开发者大会发布了一箩筐，从搜索到 Gmail、TPU，再到语音助手 Astra 和多模态视频模型 Veo 等。

三个产品值得关注：

Project Astra 的多模态 AI 助手。如果说 2023 年的竞赛点是 Copilot，2024 年，赛点则进化为多模态融合的 Agent，背后是从 LLM（大语言模型）到 One-network-multimodality（一个框架下的多模态大模型）的技术路径迁移，最终迈向跟通用的人工智能。

又是疯狂的一周，全世界都「AI 麻了」！

Veo：Veo 可以根据文本、图像和视频提示创建 AI 生成的视频，并且即将登陆 YouTube，帮助创作者快速制作更专业品质的视频。

AI 搜索：谷歌展示了如何进一步将人工智能集成到搜索中，从而实现更复杂形式的研究和规划（例如，根据查询生成三天的素食计划）。

又是疯狂的一周，全世界都「AI 麻了」！

大模型之字节打法：没准备好就不发，否则一次发布 9 个模型

模型发得晚，应用没少做，怎么想的？

字节跳动自研大模型豆包大模型（原云雀大模型）家族带着 9 个模型，首次对外亮相。字节跳动方面称，之所以是这 9 个模型，是根据后台模型调用量和需求而来，做了最强通用模型、性价比之选、和场景优化模型。

豆包大模型的推理价格成为一大亮点，其主力模型在企业市场的定价只有 0.0008 元/千 Tokens，0.8 厘就能处理 1500 多个汉字。

值得注意的是，字节发布会没有介绍模型参数、数据和语料，甚至没有给出豆包模型的评测数据，而是直接把模型能力在场景里做了垂直细分。字节可能是在建立用户反馈、数据反馈，从而做更精准地场景和服务。根据不同的数据链反馈，决定产品或者模型的下一步动作。

过去大半年，字节跳动推出的 AI 应用几乎涵盖了所有热门赛道，「豆包」、AI 应用开发平台「扣子」、互动娱乐应用「猫箱」，以及星绘、即梦等。

又是疯狂的一周，全世界都「AI 麻了」！

大模型队伍的隐秘玩家：DeepSeek Chat 通过大模型备案

降成本！我带头！

国内拥有超过 1 万枚 GPU 的企业不超过 5 家，幻方这家千亿规模的量化基金就是其中之一。意外地提前压中大模型的入场券——囤卡，但幻方做大模型是认真的。

今年 1 月以来，幻方旗下公司的 DeepSeek 模型被频繁作为开源社区里讨论的对标对象。本月，幻方开源了第二代 MoE 模型：DeepSeek-V2，主打参数更多、能力更强、成本更低。其在能力逼近第一梯队闭源模型的前提下，推理成本降到了 1 块钱 per million token，也就是说，成本是 Llama3 70B 的七分之一，GPT-4 Turbo 的七十分之一。而且，DeepSeek v2 还有利润。

DeepSeek v2 发布后，引来了大模型价格战，智谱、面壁、字节相继宣布了模型推理价格降低。这背后是模型架构、系统、工程的一系列进步。你有没有发现，OpenAI 的价格也降低了 10 倍不止。

Anyway，现在，DeepSeek-V2 已经通过备案，你可以联网体验，隐秘玩家的隐秘实力究竟如何？

又是疯狂的一周，全世界都「AI 麻了」！

5 月 16 日（周四）

文生图、文生视频：DiT 架构正在被广泛拥抱

开源力量大

腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

混元文生图大模型是中文原生的 DiT（Diffusion Models with transformer）架构文生图开源模型，这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。

5 月 17 日（周五）

「GPTs」和大模型助手 App：大厂必备，腾讯版来了

已接入 600 多个腾讯内部业务和场景

本周，腾讯公布了大模型研发、应用产品的系列进展。

腾讯混元大模型升级，推出在质量和成本上有不同特点的三个模型版本，其内部已经有 600 多个业务接入大模型。

在工具层，发布了腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大 PaaS 工具链，简化数据接入、模型精调、应用开发流程。

值得注意的是，腾讯终于推出了自家「GPTs」——元器，用户可以使用腾讯官方的插件和知识库直接创建智能体。开发完成后，将智能体一键分发到 QQ、微信客服、腾讯云等渠道上。腾讯还将于月底推出基于混元大模型的全新助手 App「腾讯元宝」。

又是疯狂的一周，全世界都「AI 麻了」！

写在最后：

本周，与上述 AI 产品、技术发布一同进展的，还有各大 AI 公司的「水下操作」。

什么都无法阻挡 Scaling Law 的脚步：

主导超级对齐的 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 在社交平台 X 上宣布，他将离开公司。随后，超级对齐团队负责人之一 Jan Leike 也宣布离职，并发推称，超级对齐团队在公司内部被边缘化，无法获取计算资源做研究。

AWS CEO Adam Selipsky 离职，或由于 AWS 错失 AI 投资和研发的最佳时机。

微软宣布将在法国投资 40 亿欧元，大部分将集中在 AI 领域

马斯克的 xAI 斥资近 100 亿美元租用 Oracle 人工智能服务器

AI 应用正在拓展既有想象力：

企业级可用大模型的 Anthropic 从 Instagram 挖来了 CTO 做产品，或进军 ToC APP。

Meta Platforms 正在开发的带有摄像头的人工智能耳机项目，摄像头将使耳机能够识别佩戴者周围物理世界中的物体。Sam Altman 最近也被曝和前苹果设计大师 Jony Ive 正在探索开发带有摄像头的 AI 耳机，「很快你的耳朵里也会长出眼睛」。

又是疯狂的一周，全世界都「AI 麻了」！

下周，北京时间 5 月 22 日凌晨，AI 的另一大玩家微软，即将在西雅图举办 Hybrid：Microsoft Build 大会。官方网页上大大的「How will AI shape your future?」，强调了本次大会的主题。

金钱永不眠，AI 也是。

文章来源于“极客公园”

又是疯狂的一周，全世界都「AI 麻了」！

大模型 Unitree G1 具身智能 Yi-Large GPT-4o AI 应用

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/