启明创投发布2024生成式AI的十大展望

4620点击 2024-07-14 11:13

7月6日，由启明创投主办的2024世界人工智能大会（WAIC）“启明创投·创业与投资论坛——超级模型、超级应用、超级机遇”在上海世博中心红厅成功举办。大语言模型、多模态模型、具身智能和生成式AI应用领域的著名专家与学者，顶尖投资人和领军创业者汇聚一堂，围绕生成式AI基础技术进展、商业应用前景和创业投资生态等主题展开分享与交流。

作为中国在AI领域最早投资且布局最丰富的投资机构，这是启明创投连续第二年主办该论坛，也是本届世界人工智能大会唯一一场由创业投资机构发起的、旨在从创新视角展示和探讨生成式AI的分论坛。

启明创投从2013年开始系统性布局人工智能领域，从AI 1.0到AI 2.0，经过十余年的深耕与前沿洞察，启明创投在AI领域投资了众多项目，多家已上市或成长为独角兽企业。

启明创投主管合伙人周志峰在以“技术突破到应用变革-AI发展的新篇章”为主题的开幕演讲中介绍道，启明创投在人工智能领域的投资策略已经发生演变，从将人工智能视为一个技术或一个垂直领域去进行投资，转变为将其视为基础能力、去寻找其在千行百业落地的巨大潜力。

启明创投发布2024生成式AI的十大展望

启明创投主管合伙人周志峰

相较于互联网浪潮中应用的落地时间点，周志峰预测在当前的AI浪潮中，应用的爆发将会显著提前。目前，生成式AI在三个“C领域”——Copilot（生产力工具）、Creativity（创意）、Companionship（陪伴）获得了大量用户的青睐，呈现出类似互联网应用的发展轨迹，正在经历从用来提高效率（Save Time）的应用向旨在获得愉悦（Kill Time）的应用的转变。他指出，互联网是把信息分发的边际成本几乎降为零，生成式AI的核心是把数字化内容的创造边际成本几乎降为零，由此看来AI技术一定会释放巨大的价值。

周志峰指出中国巨大的市场、优秀的技术能力及人才储备、过去20年培养和积累的卓越的创造应用的经验及能力，为中国引领下一代人工智能的原生应用奠定了很好的基础。基于启明创投投资团队深度交流过的400余家AI创业企业的统计，与去年相比，多模态应用的比例呈现上升趋势，也出现了许多基于AI大模型技术的新的应用类别，同时更多创业公司深耕某个垂直行业和场景，而基础设施层的技术创业方向也更加多元化。此外他还分享了生成式AI创业企业的三个典型创始人画像，包括AI科学家及科技巨头AI研究负责人、产业专家及大型企业资深产品或运营高管、以及新锐创业者及技术天才三类。

针对生成式AI应用落地面临的问题，周志峰指出：一，降低生成式AI实现普及所需的模型使用成本；二，提升大模型的效果；三，增强生成式AI应用的用户留存率。因为生成式AI应用企业从0到1的成长时间比其他领域更长，需要同时克服TPF（技术-产品契合度）和 PMF（产品-市场契合度）两大挑战，所以创始团队需要更大的耐心和决心，理解技术（技术的边际）、理解产品（原生AI产品的新特点和新分发机制）、理解世界（全球化发展的机会）。

周志峰同时围绕大语言模型、多模态模型、商业机会等做出2024生成式AI十大展望：

1. 当前生成式AI的两大核心技术GPT和扩散模型将逐步融合，激发全新模型能力；

2. 高质量数据的获取和组织将显著影响新一代模型，合成数据在预训练中的占比将大幅提升；

3. Multi-Agent技术将飞跃，通过优化协作和分工显著提升生成式AI效率和效果；

4. 将出现图像和文本的统一连续表示，并且基于此的图文联合扩散模型将达到GPT-4o级别能力；

5. 图像和视频隐空间表示的压缩率提升五倍以上，从而使生成速度提升五倍以上；

6. 3年内视频生成将全面爆发，结合3D能力，可控的视频生成将对影视、动画、短片的生产模式带来变革；

7. 我们将见证压缩更多模态信息的超级多模态大模型，如文本、图像、语音、音乐、3D、传感器数据（控制信号、眼动信号、手势信息、雷达信号等）；

8. 生成式AI打通了人类语言与机器语言的转换通道，命令机器完成复杂任务的成本将显著降低，带来巨大的生产力变革；

9. 端侧推理会有巨大增长，来自三个因素的叠加：推理优化算法+端侧推理芯片+端侧大模型；

10. AI将在多个数字化水平较高的行业中占据主导地位，并将重塑绝大部分企业软件。

在本次世界人工智能大会期间，阶跃星辰首发了三款Step系列通用大模型新品，全面升级通用大模型底座能力。在此次论坛中，阶跃星辰创始人、CEO姜大昕在主题为“攀登AGI的路径与实践：万亿参数+多模融合”的演讲中指出，探索AGI路径，“Scaling Law”和“多模态”是相辅相成、缺一不可的两个方向，两者齐头并进，最终到达AGI。

启明创投发布2024生成式AI的十大展望

阶跃星辰创始人、CEO姜大昕

在姜大昕看来，Scaling Law目前依然奏效，模型性能仍然在随着参数量、数据量和计算量的增加呈幂次方增长。阶跃星辰在系统和算法上积极探索，最终走通了Step-2万亿参数MoE大模型训练的道路；同时，多模态是构建世界模型的基础能力，面对将理解和生成统一在一个模型里的挑战，阶跃星辰已经取得了一定进展，其新升级的Step-1.5V千亿参数多模态大模型性能大幅提升，具备更出色的视频理解能力；新发布的Step-1X图像生成大模型，则是阶跃星辰首次推出多模态生成大模型。

可信大模型公司无限光年在大会的第一天也发布了光语大模型，灰盒可信，百亿参数模型优于超大规模模型GPT-4 Turbo。复旦大学浩清特聘教授、上海科学智能研究院院长、无限光年创始人漆远在《灰盒可信，释放大模型生产力》演讲中，从技术视角指出Scaling Law改变了人工智能，但并不会直接引领达到AGI，AGI的目标是发现复杂世界的未知规律；但当前大模型都高度依赖数据，而未知规律可能缺乏海量数据支撑。在此次论坛上，漆远介绍了最高级人工智能的标准——结合了发现复杂世界未知规律和节省能量的智慧脑：AI爱因斯坦。

启明创投发布2024生成式AI的十大展望

复旦大学浩清特聘教授、上海科学智能研究院院长、无限光年创始人漆远

漆远分析，目前大模型主要是联结学派的“黑盒”概率预测，如果将符号计算与大模型相结合，就能同时具备慢思考的“白盒”逻辑能力，两种方法的融合是AGI发展的重要方向，实现“灰盒”可信；深度学习能实现数据拟合，且可以延展至数据没有的地方，当知识规则和关键数据矛盾时，能够调整知识规则，摆脱数据依赖。他进一步介绍，“灰盒”可以通过符号计算与神经网络的结合，应对大模型的幻觉问题及垂直领域的专业问题。展望未来，他希望公司可以深耕场景，灰盒可信，并释放大模型生产力，赋能千行百业。

训练和推理是大模型生命周期中不可或缺的两个阶段，都需要强大的算力资源来支撑。在2024年世界人工智能大会期间，无问芯穹发布全球首个支持单任务千卡规模异构芯片混合训练平台，为大模型行业提供了有力的算力基础设施支撑。无问芯穹联合创始人、CEO夏立雪在“构建AI Native基础设施”主题演讲中表示，算力已然成为了AI发展和继续发展的基石，而AI Native应用落地所面临的四个关键Infra问题包括：激活“沉睡芯片”并促进异构算力整合、提升多种计算卡大模型计算性能、为大规模训练集群稳定训/推夯实基座以及更为高效地利用有限的端侧计算资源。

启明创投发布2024生成式AI的十大展望

无问芯穹联合创始人、CEO夏立雪

针对多元芯片，无问芯穹致力于提供高效整合异构算力资源的优质算力平台、支持软硬件联合优化与加速的中间件，以及好用的大模型应用开发与服务工具，从而实现对异构算力的全量利用，由此无问芯穹将异构千卡混训能力集成到了无问芯穹Infini-AI云平台中。夏立雪指出，无问芯穹希望通过算法创新、模型计算、算力平台及硬件推理的优化，持续降低大模型应用的落地成本，让更多人可以拥抱新技术。

生数科技联合创始人、CTO鲍凡在“U-ViT：多模态大模型的变革与未来” 主题演讲中，分享了公司在多模态大模型领域具备全栈自主研发能力，布局图像、3D、视频生成等多模态能力。此前，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu，这是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平。该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT。

启明创投发布2024生成式AI的十大展望

生数科技联合创始人、CTO鲍凡

在大会现场，鲍凡也介绍了U-ViT架构的原理，并指出该架构确保了最优生成质量、可控的计算开销、参数规模扩展性、具备涌现能力。作为首家将ViT架构成功应用于大模型训练的企业，生数科技推出的多模态扩散模型UniDiffuser在图像生成过程中，能够支持多元化风格、具备“艺术级”美学水准，语义理解能力突出。公司还在视频生成式大模型Vidu上取得进展，支持音视频合成和4D动画生成，实现生成效果的不断提升。

随着人工智能和机器人技术的快速发展，传感器、执行器、计算能力和AI算法的持续进步，具身智能成为学术界、产业界共同关注的热点。从技术突破到产业落地，具身智能目前发展如何又将走向何方？在“具身智能：从技术突破到产业落地”专题环节，启明创投科技团队投资人周啸飞担任主持，与清华大学助理教授、星动纪元创始人陈建宇，上海交通大学教授、穹彻智能联合创始人卢策吾，北京大学助理教授、北大-银河通用联合实验室主任王鹤展开讨论。

启明创投发布2024生成式AI的十大展望

星动纪元是国内领先的人形机器人公司，推出的产品星动一号也是世界上第一个登上长城的人形机器人。陈建宇认为人形机器人会是通用机器人的终极形态，不仅因为双足与双手的纯人形形态与现有环境的兼容性更好，在训练数据获取上也更容易从人类世界中进行迁移。在技术范式上，端到端大脑小脑融合方案会是未来很重要的研究方向，仅仅用人类语言作为大小脑之间的传输界面效果有限，可以借鉴目前自动驾驶中的端到端联合训练，物理层面数据直接反馈给图文大模型将更好提升整体模型效果。

陈建宇认为未来机器人有望在各类任务上都做到极致性能。在不久的将来也许可以设计一种机器人的图灵测试，有一个机器人和人来进行交互，背后可能是智能的自主控制也可能是人类遥操作，当技术发展到很难分辨机器人的背后是人工智能还是人类遥操作时，可能便是机器人真正实现智能与通用的那一天。最后陈建宇对国内发展具身智能的前景保持乐观，认为每个创业公司都应该思考如何利用中国市场的优势，最大化撬动国内供应链的优势，打造具有全球化竞争力的硬件产品。

卢策吾是世界范围内第一位由机器人来给自己刮胡子的人类，展示了穹彻智能背后精密力控机械臂的先进技术。卢策吾认为具身智能的终局需要综合考虑技术的迭代和商业的需求，具身智能作为承载硬件的软件算法欢迎各种类型的机器人形态。对于具体的技术路径，具身智能算法需要两个核心要素，分别是能够感知和理解世界的世界模型，以及具有强鲁棒性的技能操作模型。其中在操作模型中力反馈机制十分重要，不仅是在图像维度之外增加了一个交互维度，同时也可以减少对世界模型毫秒级别决策的依赖，穹彻智能在此次展会上展示的削黄瓜、叠衣服等技能都说明了操作模型具有鲁棒性后可以大大拓展潜在的应用空间。

说起具身智能的未来，卢策吾认为不久的将来我们可以看到一批又一批的操作技能的ChatGPT时刻，不断丰富机器人的操作能力，逐渐让机器人的商业飞轮不停转起来。同时国内的年轻学者也在不断进入具身智能行业，具身智能领域的博士申请近年来非常火爆，中国的人才密度和潜力很大，未来国内的顶尖高校和公司将会和同行在国际舞台上同台竞技。

银河通用前段时间发布了首代具有泛化性的具身大模型机器人，展示了通用机器人未来走进千家万户的无限可能。王鹤认为人形机器人是未来整个通用机器人市场的最大公约数，但在迈向这个终极目标的过程中需要每一步都有健康的商业模式让机器人真正进入场景，上半身拟人下半身底盘会是三年内最可能落地的实际方案。在技术角度银河通用非常关注小脑层面的技能控制模型如何实现足够的泛化和通用，针对小脑技能，银河通用自研合成了千万级的场景数据及十亿级的抓取数据，在合成数据的训练下，银河通用机器人目前已实现抓取随机放置的透明、高光等物体的成功率在95%以上，并在此次WAIC展台上展示了能够抓取观众提供的任何物体的强大泛化性。在此基础上，银河通用正在逐步探索实现商业化。

王鹤认为能落地的机器人需要足够低的成本和足够高的耐用性，这些都是需要技术公司不断打磨硬件和供应链能力，国内的创业公司具有天然优势。在讨论的最后，王鹤呼吁大家对具身智能在中国的发展抱有信心，一旦中国能够量产人形机器人和达到具身智能的通用性，我们将以最可靠的供应链和最全面的制造业，大规模把人形通用机器人推向市场。整个行业需要资本的持续支持和人才的长期投入，具身智能通用机器人的未来也一定属于中国。

大模型的突破为超级应用的发展注入了强大的动力。伴随生成式AI产业从超级模型转向超级应用，未来将会诞生哪些超级应用，将会给人类的生活带来哪些改变？在“超级应用的新机遇：与模型突破互利共赢”AI应用专题讨论环节，启明创投科技团队投资人胡奇担任主持，与智谱AI COO张帆，米粿AI创始人、CEO丁黎，无限光年COO朱剑雄，悉之智能创始人、CEO孙一乔，衔远科技首席算法科学家丁宁展开讨论。

启明创投发布2024生成式AI的十大展望

张帆介绍了智谱AI作为一家大模型公司，拥有自主知识产权的核心算法和完整的模型矩阵，涵盖大语言模型、代码模型和多模态模型等。张帆认为，未来几年内可能出现颠覆性的超级应用，但这些应用往往难以预先设计，而是通过不断迭代逐步出现。他强调，大模型的核心在于提升人机交互的带宽，从早期的键盘到如今的自然语言，大幅提升了交互能力，每次交互带宽的提升都会重构用户需求和应用方式。

关于智谱AI的独特优势，张帆指出，大模型降低了AI应用的成本和门槛，从而使AI从少数大厂专属的高级能力，变成人人都可获取的基础生产要素。这种能力的普及激发了更多人的创造力，推动了产业和行业的变革。张帆还提到，智谱AI率先提出“Model as a Service”模型即服务的理念，使企业和开发者能够通过MaaS平台降低使用和训练模型的成本，更容易地探索和构建超级应用。智谱AI还通过开源和降价，推动了AI技术的普及和应用深度的发展。

在谈及AI驱动的超级应用的未来时，张帆表达了乐观态度，认为尽管打造超级应用不易，但AI时代将涌现出许多难以想象的应用。这一过程需要算力、网络、硬件水平和用户习惯的提升，以及遵循从小规模应用开始逐步发展的原则。张帆强调，通过拥抱和利用现有的AI技术，逐步改变现有的应用和产品，未来必将迎来AI时代的超级应用。

米粿AI致力于结合AI技术与内容生产，帮助创作者以更少的精力创作更好的作品，目标是成为AI漫画和动漫平台的领军者。团队由产学研结合的三位创始人组成，丁黎曾任职于网易、虎牙直播、哔哩哔哩等公司；技术合伙人牛力是上海交通大学的副教授，他在图像编辑中的image composition领域，是国际上的开拓者和探路者；运营合伙人陈达之有12年的投资经验，擅长动漫和二次元项目的投资。

丁黎认为，未来几年内，绘图、漫画和2D动画等领域将会出现颠覆性的超级应用。他指出，韩国的Webtoon通过工业化和流程化的方式成功实现高频更新，提升了用户体验。米粿AI通过AI技术有望实现漫画的高效生产，使得更新频率大幅提高，改变用户从付费到免费的消费模式，推动漫画行业像短剧一样高频更新，提升用户体验和行业效率。

关于商业模式，丁黎表示，AI技术降低了内容创作门槛，使创作者集中在剧本、大纲和创意上，由AI完成繁琐的绘画过程，提高创作效率，使更多有创意的人加入文创行业。米粿AI的技术已将绘画速度提升至原来的10倍以上，使漫画创作更加高效和低成本。

在谈到挑战时，丁黎强调，与行业从业者形成友好生态系统非常重要，AI应作为提升产能和效率的工具，而非完全替代人类。当前AI创业需要高资本和高技术门槛，团队需团结合作，共同应对挑战，才能在激烈的市场竞争中脱颖而出。

朱剑雄在圆桌对话中分享了他对未来超级应用的看法和公司战略。他认为，未来几年内，超级应用将在多个领域涌现。当前，AI大模型技术的接受度广泛，且使用成本下降，推动了众多企业和创业公司积极探索这一领域。朱剑雄指出，从PC互联网时代到移动互联网时代，流量入口的转变提供了参考，大模型时代也会出现类似的趋势，场景服务能力深厚的公司可能会成长为超级应用。

在谈到可信大模型与超级应用的关系时，朱剑雄提到大模型技术存在“不可能的铁三角”，即通用性、专业性和经济性。他强调，无限光年选择在专业性上深耕，构建行业知识内容的垂直大模型，通过神经符号计算技术，确保模型输出的可靠性，并已在金融和医疗领域推出了具体的产品，如投研写作助手和体检报告写作助手。这些产品显著提升了工作效率，受到了用户的高度认可。

在探讨AI驱动创新应用的挑战时，朱剑雄指出，产品经理的角色和要求发生了变化。现在的产品经理不仅要定义场景和需求，还需将这些信息传递给大模型，进行评测和验证。他认为，既懂模型又懂客户的产品经理目前市场上较为稀缺，但随着时间推移，这一问题将逐渐得到改善。

悉之智能专注于AI教育，特别是AI教学解题。孙一乔在清华大学本科期间创立了这家公司，认为纯统计模型在逻辑性和鲁棒性上存在不足。孙一乔打比方称，GPT-4驾驶宇宙飞船是不可靠的，但通过构建包含人类知识的白盒体系，可以显著提高大模型的能力。

孙一乔介绍，悉之智能通过构建完整的数学等学科知识体系，大幅提升模型推理能力，其数学解题能力显著高于GPT-4o，现有产品在美国有近200万用户，年收入接近百万美元，并与新东方等国内巨头合作开发大模型。

孙一乔认为，未来超级应用应从需求出发，垂直解决问题，教育是很有潜力的领域。他强调，教育领域频次高、需求刚性，是容易出现AI超级应用的领域，通过提升教学效率和学生的学习意愿，创造巨大价值。

提升大模型数学能力方面，孙一乔提到OpenAI的Qstar项目及其强化学习方法，认为通过逐步优化数学解题步骤，可以显著提升大模型的逻辑推理能力。悉之智能采用类似方法，结合完整的数学知识体系，逐步教大模型解题，以提高其能力。

在AI解题领域，孙一乔指出，专业AI能力与大模型结合的关键在于生态系统的改进。悉之智能致力于通过合作共赢的方式改进生态。垂直领域应用需要大量微调和强化学习，并希望未来生态系统能更高效合作，共同提升基座模型的能力。

丁宁在圆桌对话中展示了其独特的理工科视角和深厚的技术背景。他介绍了衔远科技的战略，即模用一体、通专结合，强调了在技术泛化基础上提升专业性的理念。

在讨论颠覆性超级应用时，丁宁提到大模型在处理各种信息序列（如文字、视频、DNA等）方面的潜力。他提出了两个关键维度：成功时的收益和失败时的损失，指出在一些场景下可以寻找成功收益大而失败损失小的机会，例如科学发现和广告营销。他强调了通用模型的专业化，通过最低成本实现目标任务来创造价值。

针对大模型技术的提升问题，丁宁指出大模型在处理输入和输出序列时的挑战，特别是在负信号比例高的场景下学习的难度。他强调快速高效地将通用模型专业化的能力，并讨论了奖励模型（Reward Model）在提升模型性能中的应用，强调了低成本、高效率的重要性。

在谈及生成式AI驱动超级应用的挑战时，丁宁分享了两个惯性陷阱：资源惯性和技术惯性，并强调保持开放心态的重要性。他还提到数据缺失问题，特别是负信号比例高的场景缺乏高质量数据，指出这是未来的一个关键挑战。

文章来自于“36Kr”，作者“启明创投”

启明创投发布2024生成式AI的十大展望

关键词: 启明创投 , AI , 生成式AI , 人工智能 , AI投资

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales