“浙大系”杀入多模态

8609点击 2024-07-30 10:59

“浙大系”杀入多模态

开发和应用大语言模型的杭州波形智能，正式杀入多模态领域。

波形智能创始人兼CEO姜昱辰表示，较于其他杀入多模态领域的公司，波形智能无限长内容生成的关键词是“个性化”。一位投资人在接受创投日报记者采访时表示，近一年来，生成式AI领域发生诸多变化，包括语言类应用占比显著下降等。‌

多模态AI崛起之下，创业公司加速涌入。近日，创投日报记者获悉，开发和应用大语言模型的杭州波形智能科技有限公司（下称“波形智能”），正式杀入多模态领域。

波形智能创始人兼CEO姜昱辰告诉创投日报记者，之前公司拥有的自研Agents框架和专门的写作大模型Weaver，主要聚焦于长篇小说、剧本、深度文章的长内容生成领域。

“但今年基于市场需求，公司已开始聚焦多模态，从‘无限长文本生成’拓展到‘无限长内容生成’，覆盖文本、音频、影像的全链路内容创作。”姜昱辰对创投日报记者表示，较于其他杀入多模态领域的公司，波形智能无限长内容生成的关键词是“个性化”。

可以看到，生成式AI正在进入商业落地的考验期，而多模态技术的采用，无疑是各项目探索应用的重要尝试。创投日报记者注意到，估值达200亿的智谱AI也进入了文生视频赛道，成为国内三家头部大模型公司中（智谱AI 、百川智能、月之暗面）率先涉足多模态领域的独角兽。

定制化AI，是C端用户的最终诉求

波形智能成立于2023年，实际控制人为杭州无量企业管理合伙企业（有限合伙），创始人姜昱辰通过该持股平台和自身持股，控制波形智能，合计持股比列近40%。

在年初的一笔融资中，蓝驰创投、西湖科创投、藕舫天使为投资方。融资完成半年后，波形智能创始人兼CEO姜昱辰近日对创投日报记者表示，波形智能在技术和用户留存上做了很多努力，并取得了一定成绩。

首先在技术上，波形智能具备从训练模型，到Agent搭建的全流程大模型能力。“波形智能的思路非常明确，通过提供低门槛的AI工具、数据准备、模型训练部署的AI Infra等，跨越大模型和个性化需求鸿沟。”

“为此，波形智能重点攻克个性化、可进化特性，叠加多模态、多语言能力。”姜昱辰称，在原有版本上，“蛙蛙写作2.0”通过多模态直接生成视频故事，实现了从“小说”到“剧本”再到“视频”的全链路内容创作。

在用户留存方面，姜昱辰告诉创投日报记者，从1月上线到现在，大模型Weaver已经为用户累计生成了超过200亿字的内容，C端应用写作用户达到将近30万，人均使用时长为4.7小时。

而对于用户价值方面，姜昱辰表示，在与用户的沟通中发现，有一个更贴近自己风格的大模型，是内容创作者们的需求。“内容创作者们不需要通用性AI，而是千人千面、量身定制的AI，这实际上是用户最底层的诉求。在1月发布的蛙蛙写作1.0版本上，大模型‘Weaver’已经添加搜索增强，通过个性化知识库和RAG方案，在一定程度上实现‘越写越懂你’的仿写效果，但这种方式有天花板，且隐私性相对欠缺，对于个人和企业用户来说均是痛点。”

多模态之下，浙大团队杀入

为此，在过去半年，波形智能技术团队围绕该痛点进行研发，最终研发出“Life-long Personalized AI”（LPA）技术路线，实现个性化、保护隐私的大模型。

具体而言，要做到个性化，首先需要打造一套好的记忆体系。“在这方面，波形智能比较幸运，在长记忆上有较深的技术积累，是全球第一个提出无限时长文本生成的团队，再通过ChatGPT技术和动态传感器机制，实现无限式长文本生成。”姜昱辰谈到。

长记忆之外，可控性也非常重要。波形智能创始人兼CEO姜昱辰告诉创投日报记者，在模型微调层面，波形智能分别对SFT阶段、Agents层级、推理方面进行了技术创新，最终减少大模型生成中的累计误差。

截至目前，波形智能在底层算力的支持之上，正在努力打造一个个性化的、自驱动进化的底层模型，安全并能保证用户隐私的使用环境，以及像蛙蛙写作、AI Learning等多元化领域的产品落地。

好的大模型应用落地，不仅需要核心技术，还要对垂直产品有深度理解，波形智能在核心团队上也有着满足这一条件的配置。公开资料显示，波形智能的创始团队来自浙江大学及苏黎世联邦理工大学。

其中，创始人兼CEO的姜昱辰本科毕业于浙江大学竺可桢学院，是浙江大学对优秀本科生实施特别培养和精英培养的荣誉学院；之后，姜昱辰在苏黎世联邦理工大学人工智能攻读博士，师从国际著名学者Ryan Cotterell，专攻自然语言生成方向，曾在微软亚洲研究院从事大语言模型的训练与推理研究。

首席运营官方面，联合创始人兼COO的余腾，曾任美国上市公司掌门教育（ZME）联合创始人兼营销高级副总裁，拥有丰富的商业化经验、大规模团队管理经验和C端营销增长经验。值得一提的是，余腾也来自于浙江大学竺可桢学院。

CTO和CPO方面，周王春澍在苏黎世联邦理工大学就读博士，从事人工智能方向研究；CPO万磊则出自腾讯，为过亿月活社交APP高级产品经理，多款AI产品创始人。

一位投资人在接受创投日报记者采访时表示，近一年来，生成式AI领域发生诸多变化，一是语言类应用占比显著下降。“在GPT模型之上套壳做简单的应用，已经无法满足用户需求。越来越多的创业公司意识到，多模态肯定会带来更好的用户体验和功能，所以多模态应用比例上升到了近50%。”

二是，更多公司深入到某一个具体行业和场景中，比如医生助手、科研助手、写作助手。同时，新应用不断出现，资讯、漫画、短剧等都是Agent赋能的领域。

三是，底层基础设施创业公司增多，比如RAG检索增强、Workflow、推理优化等公司。“在AI赋能千行百业之下，未来更多2C和2B的Agent产品会出现在用户视线中。”

特别声明：文章内容仅供参考，不构成投资建议。投资者据此操作风险自担。

文章来源于“创投日报”，作者“陈美”

“浙大系”杀入多模态

关键词: 多模态 , AI , 波形智能 , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner