ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
又是疯狂的一周,全世界都「AI 麻了」!
7950点击    2024-05-20 10:02


是因为「劳动节」吗?全世界所有的公司,都选择在 5 月第三周,将最新的 AI 产品和技术,集中释放。


丧心病狂的一周!


铺垫了许久的「周一见」,OpenAI 用 GPT-4o 夺走了注意力。24 小时后的发布会上,谷歌也没有「掉链子」,Veo 视频模型、Project Astra、新版 AI 搜索都留下了惊艳的记忆点。


地表最强但风格迥异的两场发布会,只在一点上达成共识——电影《Her》一般的超强语音助手(GPT-4o 和 Project Astra),这也变相公布了 2024 年大模型赛道的竞赛点——GPT-4o 和 Astra 背后的多模态融合技术。


大洋彼岸的另一端,姗姗来迟的字节跳动发布了豆包大模型家族,腾讯终于交出了「GPTs」和大模型助手 App 的答卷。


今天看来,无论是「拖家带口」的大厂,还是「没有包袱」的创业公司,产品形态都一再扩展:从聊天机器人,到 AI 搜索、「GPTs」、多模态语音助手.... 玩得越来越花。


不知道你麻没麻,反正我们是幸福地麻了。


5 月 13 日(周一)


AI 化身/人形智能体正在快速演进:宇树发布 Unitree G1 人形机器人


¥9.9 万元起,远低于行业售价


大语言模型出圈,让可以实现具身智能的人形机器人火了。


2023 年 8 月,宇树科技发布了人形机器人 H1,预售价为 9 万美元(约合 65 万元人民币)。本周,宇树推出的新版人形机器人 Unitree G1 将价格降到 9.9 万元人民币起,便宜了超 80%。


与第一代产品相比,Unitree G1 能力显著提升:开瓶盖、砸核桃、颠锅、跑步、舞棍、自我蜷缩……在宇树科技发布的产品演示视频里,身体和双腿能旋转近 360°,Unitree G1 像人类一样用机械双臂灵活地完成一系列工作。



开源闭源并进:零一万物发布千亿参数 Yi-Large 模型


开源构建生态,闭源探索AI上限


零一万物成立一周年之际,其千亿参数 Yi-Large 闭源模型正式亮相,在斯坦福最新的 AlpacaEval 2.0 达到全球大模型 Win Rate 第一。


同时,零一万物将早先发布的 Yi-34B、Yi-9B/6B 中小尺寸开源模型版本升级为 Yi-1.5 系列,每个版本达到同尺寸中 SOTA 性能最佳。



5 月 14 日(周二)


「Her」真的来了:「GPT-4o」将语音助手带到了新高度


多模态融合模型,只是工程的进步吗?


OpenAI 发布了新一代旗舰模型 GPT-4o,它可以让人们在手机上与 ChatGPT 对话,就像他们与 Siri 和其他语音助手对话一样。不同的是,ChatGPT 语音助手的理解能力有了质的飞跃,还可以分析和讨论它所看到的图像或视频,并能识别用户说话时的不同情绪。


有了 GPT-4o 的加持,ChatGPT 可以根据你的想法引导你做数学题目、按照你的实时要求讲一个睡前故事。OpenAI 称 GPT-4o 是为了创建一个对音频、图像和文本有更深入、更自然理解的模型,这依旧是为了向 AGI 目标行进。


OpenAI 的发布,也在 AI 圈引起了广泛讨论。业界普遍认为,GPT-4o 的惊艳之处在于两点:1)将语音交互延迟缩短到 300ms;2)端到端多模态原生大模型


P.S.: 留一个观察作业:GPT-4o 会显著提升 ChatGPT 的日活和用户粘性吗?有了更高 AI 能力的智能助手,2016 年的百箱大战会席卷重来?Siri 一样的语音助手会成为入口级的必争之地?



5 月 15 日(周三)


没有一款产品没有被 AI 改造:谷歌全面进入 Gemini 时代


Sora 尚且是科技巨头的选做题,但多模态融合就是大模型公司的必做题。


提了 121 次 AI,谷歌 I/O 2024 开发者大会发布了一箩筐,从搜索到 Gmail、TPU,再到语音助手 Astra 和多模态视频模型 Veo 等。


三个产品值得关注:


Project Astra 的多模态 AI 助手。如果说 2023 年的竞赛点是 Copilot,2024 年,赛点则进化为多模态融合的 Agent,背后是从 LLM(大语言模型)到 One-network-multimodality(一个框架下的多模态大模型)的技术路径迁移,最终迈向跟通用的人工智能。



Veo:Veo 可以根据文本、图像和视频提示创建 AI 生成的视频,并且即将登陆 YouTube,帮助创作者快速制作更专业品质的视频。


AI 搜索:谷歌展示了如何进一步将人工智能集成到搜索中,从而实现更复杂形式的研究和规划(例如,根据查询生成三天的素食计划)。



大模型之字节打法:没准备好就不发,否则一次发布 9 个模型


模型发得晚,应用没少做,怎么想的?


字节跳动自研大模型豆包大模型(原云雀大模型)家族带着 9 个模型,首次对外亮相。字节跳动方面称,之所以是这 9 个模型,是根据后台模型调用量和需求而来,做了最强通用模型、性价比之选、和场景优化模型。


豆包大模型的推理价格成为一大亮点,其主力模型在企业市场的定价只有 0.0008 元/千 Tokens,0.8 厘就能处理 1500 多个汉字。


值得注意的是,字节发布会没有介绍模型参数、数据和语料,甚至没有给出豆包模型的评测数据,而是直接把模型能力在场景里做了垂直细分。字节可能是在建立用户反馈、数据反馈,从而做更精准地场景和服务。根据不同的数据链反馈,决定产品或者模型的下一步动作。


过去大半年,字节跳动推出的 AI 应用几乎涵盖了所有热门赛道,「豆包」、AI 应用开发平台「扣子」、互动娱乐应用「猫箱」,以及星绘、即梦等。



大模型队伍的隐秘玩家:DeepSeek Chat 通过大模型备案


降成本!我带头!


国内拥有超过 1 万枚 GPU 的企业不超过 5 家,幻方这家千亿规模的量化基金就是其中之一。意外地提前压中大模型的入场券——囤卡,但幻方做大模型是认真的。


今年 1 月以来,幻方旗下公司的 DeepSeek 模型被频繁作为开源社区里讨论的对标对象。本月,幻方开源了第二代 MoE 模型:DeepSeek-V2,主打参数更多、能力更强、成本更低。其在能力逼近第一梯队闭源模型的前提下,推理成本降到了 1 块钱 per million token,也就是说,成本是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。而且,DeepSeek v2 还有利润。


DeepSeek v2 发布后,引来了大模型价格战,智谱、面壁、字节相继宣布了模型推理价格降低。这背后是模型架构、系统、工程的一系列进步。你有没有发现,OpenAI 的价格也降低了 10 倍不止。


Anyway,现在,DeepSeek-V2 已经通过备案,你可以联网体验,隐秘玩家的隐秘实力究竟如何?



5 月 16 日(周四)


文生图、文生视频:DiT 架构正在被广泛拥抱


开源力量大


腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。


混元文生图大模型是中文原生的 DiT(Diffusion Models with transformer)架构文生图开源模型,这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。


5 月 17 日(周五)


「GPTs」和大模型助手 App:大厂必备,腾讯版来了


已接入 600 多个腾讯内部业务和场景


本周,腾讯公布了大模型研发、应用产品的系列进展。


腾讯混元大模型升级,推出在质量和成本上有不同特点的三个模型版本,其内部已经有 600 多个业务接入大模型。


在工具层,发布了腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大 PaaS 工具链,简化数据接入、模型精调、应用开发流程。


值得注意的是,腾讯终于推出了自家「GPTs」——元器,用户可以使用腾讯官方的插件和知识库直接创建智能体。开发完成后,将智能体一键分发到 QQ、微信客服、腾讯云等渠道上。腾讯还将于月底推出基于混元大模型的全新助手 App「腾讯元宝」。



写在最后:


本周,与上述 AI 产品、技术发布一同进展的,还有各大 AI 公司的「水下操作」。


什么都无法阻挡 Scaling Law 的脚步:


主导超级对齐的 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 在社交平台 X 上宣布,他将离开公司。随后,超级对齐团队负责人之一 Jan Leike 也宣布离职,并发推称,超级对齐团队在公司内部被边缘化,无法获取计算资源做研究。


AWS CEO Adam Selipsky 离职,或由于 AWS 错失 AI 投资和研发的最佳时机。


微软宣布将在法国投资 40 亿欧元,大部分将集中在 AI 领域


马斯克的 xAI 斥资近 100 亿美元租用 Oracle 人工智能服务器


AI 应用正在拓展既有想象力:


企业级可用大模型的 Anthropic 从 Instagram 挖来了 CTO 做产品,或进军 ToC APP。


Meta Platforms 正在开发的带有摄像头的人工智能耳机项目,摄像头将使耳机能够识别佩戴者周围物理世界中的物体。Sam Altman 最近也被曝和前苹果设计大师 Jony Ive 正在探索开发带有摄像头的 AI 耳机,「很快你的耳朵里也会长出眼睛」。



下周,北京时间 5 月 22 日凌晨,AI 的另一大玩家微软,即将在西雅图举办 Hybrid:Microsoft Build 大会。官方网页上大大的「How will AI shape your future?」,强调了本次大会的主题。


金钱永不眠,AI 也是。


文章来源于“极客公园”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/