大模型的2024年：我们对AI的发展脱敏了

9285点击 2024-12-26 11:32

AI降低了人们对技术进步的敏感性，让一切发展都变快了。

在想象中，技术的进步似乎应该是在不经意间改变生活方式，但人工智能的火热却总是停留在微博和知乎上，大众也在这种事不关己的喧嚣中，日渐脱敏。

这种现象尤其展现在AI圈各类话题的热度上，站在年末去回顾全年，不难发现引发最多讨论的其实就两件事：

字节实习生攻击大模型训练、月之暗面和朱啸虎的资本博弈。

但这绝不是中国AI圈最真实的样貌，我们可以轻描淡写地说某个AI功能“没啥了不起”，某个技术突破“不过如此”，可站在年末，我们去审视2024年这一年依旧是一场不折不扣的技术狂飙。

01 大模型更加实用，但不再惊艳

2024年初，国内大模型领域呈现出“群雄逐鹿”的局面。据《每经》统计，截至2024年4月，已经有305个大模型问世，去年诞生的新词“百模大战”到今天依然适用，但价格战的爆发和应用侧的需要已经事实上清退了绝大多数本就没必要诞生的模型。

第一个趋势是小参数的端侧模型。中杯大杯特大杯的分类已经无法满足各类场景的不同需求，大参数模型拥有强大的能力，但它们的训练和调用成本高昂，在硬件能力有限的情况下难以普及。

端侧模型的出现让简单的AI应用进入日常生活不再遥远，最典型的案例是手机/PC端侧模型，比如小米的MiLM、vivo的蓝星大模型等等，它们既在手机上保留关键能力，又能降低资源消耗，这类模型的部署很大程度上成为了AI渗透日常的关键一步。

在此基础上，另一大趋势是混合专家（MoE）技术的应用，一种使模型调用成本更低但依然高效的解决方案。普通的大模型就像一个全知全能的专家什么都会，但价格昂贵（算力需求高）。而MoE模型则如同邀请了一个专家团队，这些专家分别擅长不同领域，用户在需要时调动对应的专家即可。通过这一机制，模型的算力需求和成本大大降低。以Mixtral-8x7B为例，它在性能上与GPT-4差距不大，但在资源需求上却低得多。

此外，多模态的研究也开始成为2024年大模型发展的一个重要方向。人类认知世界是通过视觉、声音、触觉等多模态的方式来实现的，而大模型如果想要真正具备智能，同时真正具备应用价值，仅靠文字输入和输出显然是不够的。以生成配图为例，AI不仅需要理解文字内容，还要能把握图像的语境，随着谷歌发布原生多模态大模型Gemini，多模态能力成为了各大AI公司研究的重点。

对于普通用户来说，大模型回答内容的好坏没有一个特定的评判标准，但大模型能读取的内容越多一定越强。今年3月份，月之暗面的kimi选择了卷“超长文本”这条路。原本我们想让大模型读一本书，或者一篇长文章，都需要用上各种提示词，而kimi直接把大模型的读取能力提高到能够处理200万上下文长度，相当于3本《红楼梦》。随后kimi在国内的影响力一路飙升，连月之暗面接待用户的矿泉水牌子都被扒出来炒作，成就了所谓的“kimi概念股”。

大模型行业的真正“爆点”出现在2024年5月。Deepseek公司掀起了一场价格战，字节、阿里等大厂纷纷跟进降价，百度和讯飞更是推出了免费模型。在技术层面，如模型压缩、混合精度训练等，帮助厂商降低了训练和调用成本，从而为价格调整提供了空间。市场层面，这场价格战无疑是在模仿互联网时代的商业模式，通过降低价格来迅速扩大市场份额。同时，厂商也通过获得更多的用户数据来提升模型的训练效果。

经过这一轮价格战，国内大模型行业的生态得到了重塑。许多中小型企业被迫退出市场，剩下的大厂则通过价格优势占据了市场主导地位。

但领头大模型的技术进步并未停止，2024年9月，OpenAI发布了GPT-o1，该模型通过强化学习和思维链技术，显著提升了推理能力，尤其是在数学问题、编程任务以及科学推理等领域。国内的Kimi和智谱也几乎同步发布了类似的产品，推理能力成为了下半年大模型研究的焦点。

虽然现在的大模型好用便宜，但都不如梦里的GPT-5。2024年年末，最受关注的大模型消息应该就是GPT-5难产。据《华尔街日报》12月20日报道，OpenAI的GPT-5项目的开发已持续超过18个月，该项目应在2024年年中完成，但现在进度严重滞后。

原因之一是训练成本太高，据估计，GPT-5训练的算力成本可能高达5亿美元（约合36.6亿元人民币），另一方面，可供GPT-5训练的优质数据稀缺，OpenAI不得不专门请一堆人从零给GPT5写训练数据。

希望，2025年能看到GPT-5发布。

02 把功能放进一个软件里

大模型能力是基础，但对于用户日常使用而言，在互联网时代的熏陶下，所有人都期望一个APP能解决所有问题，AI时代也不例外。因此站在软件的角度，整个2024年最清晰的脉络，则是将更多的功能，塞进一个软件里。

AI搜索内容为王

AI搜索被视为大模型应用中最具潜力的方向之一，并且已经成为首个实现大规模落地的领域。生成式大模型本身是一个内容库，它的训练需要大量的数据。此外，生成式大模型最常见的交互方式是对话式这与用户的搜索需求高度契合。

用李彦宏的话来说：“生成式AI与搜索是天作之合。”在此背景下，AI搜索成为了行业的焦点，特别是以AI搜索为核心功能的Perplexity，其估值不断创新高，吸引了OpenAI、谷歌等科技巨头的积极布局，掀起了年初AI搜索的热潮。

在AI搜索的初期，它更多被视为独立产品，主要功能集中在提供搜索服务上。像秘塔AI、天工AI等公司，采取了“传统搜索引擎+AI”的方式。用户在输入框中输入问题，AI则会从网页内容中读取并进行总结。

这种模式面临着高成本的挑战，尤其是对于没有搜索引擎基础的公司，他们不得不投入大量资源来建立或购买URL搜索库。随着百度、谷歌等传统搜索引擎纷纷加入AI功能，AI搜索的创业公司逐渐失去了竞争优势。

大模型的2024年：我们对AI的发展脱敏了

面对这种困境，AI搜索产品开始寻求差异化。腾讯和字节跳动通过借助各自独有的内容生态（抖音和公众号），将AI搜索融入自家的AI助手中，这种策略让它们能够利用现有的庞大用户基础和内容生态，避免了传统搜索引擎的激烈竞争，找到自己独特定位。

大模型的2024年：我们对AI的发展脱敏了

更像人的AI语音

使人工智能能够像人类一样进行自然对话，一直是评估其能力的关键标准，许多人梦想拥有一个类似《钢铁侠》中的贾维斯智能助手。

然而，当前的交互方式仍主要依赖文本。基于此发展起来的音频大模型，实际上是将语音转化为文字，由大模型进行理解和生成，再将生成的文字转换为语音输出。在这一过程中，不可避免地遇到一些文字交互特有的问题，例如对方言的理解困难、情绪识别的不准确，以及用户在对话中途无法有效打断等问题。

在5月OpenAI春季新品发布会上展示了ChatGPT的高级语音模式后，AI语音交流能力的巨大进步引起了广泛关注。

大模型的2024年：我们对AI的发展脱敏了

今年八月，火山引擎用一场发布会展示了豆包支持情感理解和对话中断等功能的AI语音技术，到了十月，智谱也推出端到端语音模型，主打人机交流能够像日常对话一样进行。

这一突破得益于BigTTS技术和RTC（实时通信）技术的支持。BigTTS技术赋予AI更加丰富的情感和语调，使其语音输出更加生动自然；RTC技术则大幅降低了中英混合对话时的延迟，提升了实时交互的流畅性。此外，通过Seed-TTS技术，AI能够快速克隆样本声音的特征，实现场景中更加个性化和逼真的语音输出。

AI视频正在变成生产力工具

在OpenAI于2024年2月15日发布AI视频技术之前，AI视频仍处于实验和抽象阶段，能够实现如PPT一样的背景变化就已被视为领先，代表性的AI软件和公司包括Runway、Pika等。

然而，Sora的出现大大提升了人们对AI视频的期望，scaling law被证实在视频领域也有效，于是各大公司开始投入AI视频，争相在时长、画面运镜、风格和画质上“卷”出更多差异。

然而，AI视频最大的问题在于商业化，这也不被不少人认为是Sora迟迟不发布的原因。恰逢短剧市场火爆，并且短剧在制作上不需要天衣无缝的画面，契合一致性不强的AI视频，抖音快手开始尝试AI+短剧的模式，借此宣传自家AI视频软件。抖音《三星堆：未来启示录》和快手《山海奇镜之劈波斩浪》分别在各自平台获得了1.35亿和5200万的播放量。

大模型的2024年：我们对AI的发展脱敏了

就在国内AI视频卷成一锅粥，各种免费应用频出，但并没有一款AI视频软件有清晰盈利模式之余，9月一条名厨戈登·拉姆齐在厨房里“炼丹”的，由Minimax旗下海螺AI生成段子视频，风靡海外社交平台。

大模型的2024年：我们对AI的发展脱敏了

这种现象在海外媒体的标题中被称作“中国应用在AI视频领域取得早期胜利”。在Sora尚未正式推出之时，可灵、PixVerse、Vido等AI视频软件疯狂抢占海外市场，创业公司纷纷开设海外办事处，MiniMax旗下的Talkie全球月活跃用户数已达1100万。

AI视频商业化的关键在于把软件卖出去，尤其是在“最佳”AI视频sora还处于画饼阶段。而相较于付费意愿不强的国内市场来说，海外用户付费习惯更好，市场空间明显更大。

为了让AI视频更有生产力，而不是停留在整活视频。AI视频短剧平台产品出现，进一步降低了AI短剧的制作门槛。这些平台将脚本创作、分镜设计、视频生成等短剧制作所需的各个步骤整合在同一个应用中，极大简化了创作流程。比如8月，昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels，让创作者“一键成剧”。

大模型的2024年：我们对AI的发展脱敏了

门槛降低的AI Agent

前文提到的AI视频、AI语音、AI搜索等功能，都可以归纳为AI Agent。简而言之，AI Agent是由人工智能驱动的代理人，能够代替人类完成各类任务。2023年3月，AutoGPT框架项目的发布掀起了AI Agent的浪潮，随后，Baby AGI、AgentGPT等类似产品相继涌现。

然而，由于开发门槛较高，用户数量相对有限。2024年，AI Agent的趋势逐渐聚焦于降低开发门槛，推动技术的普及。

在今年4月的Create大会上，百度发布AI开发工具AgentBuilder、AI原生应用开发工具AppBuild，主打一个会说话就能开发AI。12月字节跳动的AI开发平台扣子，也频频更新低代码开发软件，如Project IDE、UI Builder等。

大模型的2024年：我们对AI的发展脱敏了

尽管许多用户通过AI Agent实现了“开发者”身份，可“如何让AI开发者赚到钱”却成为了大厂们最新的问题。

目前的AI Agent大部分只能针对单一任务，如编程、修图、写文章等，让AI Agent从单一任务转向广泛通用是发展的另一大趋势。11月智谱AI发布了其重磅产品——AutoGLM，这款AI Agent能够真正帮助用户自动完成各类任务。在发布会上，智谱AI的CEO张鹏通过AutoGLM向现场人员发放了20000元红包，并宣称这是“历史上AI首次向人类发送红包”。

大模型的2024年：我们对AI的发展脱敏了

03 AI硬件不再All in AI

如果说“跟着OpenAI走”是AGI赛道的主线，那么在没有主线的AI硬件领域，整个市场就显得百花齐放，年初的CES展上，高喊着AI颠覆一切口号，从而推出的Rabbit R1和AI Pin掀起了原生AI硬件的浪潮，但结果第一代原生AI硬件全部翻车。

随后“万物+AI”开始兴起，AI学习机，AI耳机，AI玩具，甚至于AI鼠标电脑按摩椅层出不穷，但除了价格之外，暂时还未发现什么颠覆之处。

大模型的2024年：我们对AI的发展脱敏了

此外，AI硬件的概念让传统的PC OEM厂看到机会。原本PC OEM厂的迭代升级受限于CPU+GPU的换代，自主权较小利润被牢牢锁死，但AI PC的概念则完美对应“软件定义硬件”的思路。

但消费者逐渐发现AI PC与传统PC差异不大。AI PC的NPU性能不足以支持运行高效的本地模型，仍然需要联网才能运行大模型。无论AI PC的算力如何吹嘘，实际体验中，购买一张显卡反而更为实际。

年底，AI眼镜异军突起，Ray-Ban与Meta合作推出的AI眼镜短时间狂卖100万台迅速引爆市场，成为资本最为看好、投融资最为火热的AI硬件赛道。

从技术上看，这款眼镜并不具备什么颠覆性的突破，但之所以热销，首先在于它是一副好眼镜。Meta与Ray-Ban合作，选用了经典的Wayfarer款式，外观时尚大方。此外，在重量方面，Meta并未因搭载科技功能而妥协，官方数据显示其重量仅为48克，与普通眼镜相仿，佩戴感极为舒适。

星际魅族副总裁卢勇认为，智能眼镜的核心要素首先是外观好看，其次是轻便。AI功能并非刚需，用户使用眼镜的70%时间都在听音乐和拍照。Meta AI眼镜的火爆，亦为所有AI硬件的未来发展指明了方向：在追求AI创新之前，首先要做好基础功能，再进一步整合AI技术。

大模型的2024年：我们对AI的发展脱敏了

04 AI从工具成为游戏的一部分

AI游戏本应归属于AI软件领域，但如果我们将“生成世界，模拟宇宙”作为人工智能的终极目标，那么目前离这些愿景最接近的就是AI游戏。而且，AI所需的算力，早在之前就一直由游戏行业支持，AI的能力最初也通过国际象棋、围棋和《Dota》等游戏得以验证。

到2024年，AI不再仅仅是辅助设计的工具，而是成为了游戏本身的一部分。

或许大家还记得年初突然火爆全网的《哄哄模拟器》，这款游戏以AI对话为核心，其成功让AI对话类游戏开始涌现。游戏让玩家快乐，但每个人都有独特的爱好，游戏公司往往会准备多条支线剧情供玩家选择，但数量有限。而大模型可以做到真正的千人千面，给玩家独一无二的体验。

一些比较成熟的AI游戏如《海龟蘑菇汤》和《一千零一夜》。在《海龟蘑菇汤》中，玩家无论说什么内容，AI都会将剧情引导到主线。《一千零一夜》中，AI可以生成玩家想象中的任何武器。

大模型的2024年：我们对AI的发展脱敏了

比AI驱动更加自由、定制化的游戏，就是游戏内容全部都由AI生成。

11月初，首款实时生成的AI游戏在业内引发了热潮。两家初创公司——Decart和Etched，宣布他们共同开发了全球首个实时、可玩且可交互的世界模型——Oasis。Oasis通过数百万小时的游戏视频训练，能够根据用户的键盘输入即时生成开放世界游戏。

12月，Google DeepMind发布了大型基础世界模型——Genie 2。用户只需提供一张图片，Genie 2便能生成一个与之相对应的虚拟世界，并允许用户通过鼠标和键盘在其中进行互动。

大模型的2024年：我们对AI的发展脱敏了

虽然谷歌的技术无疑强大，但2024年最火的AI游戏，毫无疑问是《沙威玛传奇》——一款真正的“3A大作”——融合了AI作图、AI配音、AI作曲等技术。

这款游戏在9月底突然爆火，迅速超越《王者荣耀》等热门游戏，稳居iOS免费榜榜首，并连续霸榜至少16天。游戏的内容很简单，玩家扮演沙威玛饭店老板，需要在游戏中切肉、炸薯条、加酱、卷饼等，满足不同食客的需求。

与传统3A游戏相比，《沙威玛传奇》无论是在画质还是音乐方面，都显得相对简陋，但它的魅力在于好玩。就像AI硬件一样，游戏的成功也提醒着开发者，AI游戏本质上仍然是游戏，最重要的是好玩。

大模型的2024年：我们对AI的发展脱敏了

从基础大模型到接近AGI的突破，从AI抽象视频到AI生成短剧的爆火，从更加“逼真”的数字人到AI游戏的新玩法……所有这些变化，曾经需要数年的积累，而现在不过发生在短短一年之内。技术进步的速度，正在不断刷新我们的认知。

作为继互联网、云计算、智能手机之后的又一次产业革命，每一个中国人都无比期望在人工智能这轮浪潮中拔得头筹，而不是再一次被冠上“追赶者”的名号。

诚然，谈起AI我们总会说国内环境不好、融资情绪差、技术存在差距、商业化不尽人意零零总总，可回过头来看这一轮AGI革命，曾在电子产业领先的日韩杳无音讯、欧洲只余Mistral一家独苗，还是从硅谷返乡创业。

反观中国，论AI人才梯队的规模和质量，中国仅次于美国，在ChatGPT问世的前一年，中国AI论文数量已经是美国的2倍。

凯文·凯利在2024年上海外滩大会上曾问过一个问题：“想象100年后的世界，你想生活在什么样的环境中？”但面对这飞速变化的时代，1年后的未来都让人无法预测。

文章来自于“新硅NewGeek”，作者“董道力”。

大模型的2024年：我们对AI的发展脱敏了

关键词: AI , AI发展 , 大模型 , AI搜索 , AI年度总结

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

秘塔AI

【开源免费】metaso-free-api是一个逆向秘塔AI搜索的开源项目，它支持超强检索超长输出，支持高速流式输出、超强的联网搜索以及零配置部署。
项目地址：https://github.com/LLM-Red-Team/metaso-free-api

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales