开发和应用大语言模型的杭州波形智能,正式杀入多模态领域。
波形智能创始人兼CEO姜昱辰表示,较于其他杀入多模态领域的公司,波形智能无限长内容生成的关键词是“个性化”。一位投资人在接受创投日报记者采访时表示,近一年来,生成式AI领域发生诸多变化,包括语言类应用占比显著下降等。
多模态AI崛起之下,创业公司加速涌入。近日,创投日报记者获悉,开发和应用大语言模型的杭州波形智能科技有限公司(下称“波形智能”),正式杀入多模态领域。
波形智能创始人兼CEO姜昱辰告诉创投日报记者,之前公司拥有的自研Agents框架和专门的写作大模型Weaver,主要聚焦于长篇小说、剧本、深度文章的长内容生成领域。
“但今年基于市场需求,公司已开始聚焦多模态,从‘无限长文本生成’拓展到‘无限长内容生成’,覆盖文本、音频、影像的全链路内容创作。”姜昱辰对创投日报记者表示,较于其他杀入多模态领域的公司,波形智能无限长内容生成的关键词是“个性化”。
可以看到,生成式AI正在进入商业落地的考验期,而多模态技术的采用,无疑是各项目探索应用的重要尝试。创投日报记者注意到,估值达200亿的智谱AI也进入了文生视频赛道,成为国内三家头部大模型公司中(智谱AI 、百川智能、月之暗面)率先涉足多模态领域的独角兽。
波形智能成立于2023年,实际控制人为杭州无量企业管理合伙企业(有限合伙),创始人姜昱辰通过该持股平台和自身持股,控制波形智能,合计持股比列近40%。
在年初的一笔融资中,蓝驰创投、西湖科创投、藕舫天使为投资方。融资完成半年后,波形智能创始人兼CEO姜昱辰近日对创投日报记者表示,波形智能在技术和用户留存上做了很多努力,并取得了一定成绩。
首先在技术上,波形智能具备从训练模型,到Agent搭建的全流程大模型能力。“波形智能的思路非常明确,通过提供低门槛的AI工具、数据准备、模型训练部署的AI Infra等,跨越大模型和个性化需求鸿沟。”
“为此,波形智能重点攻克个性化、可进化特性,叠加多模态、多语言能力。”姜昱辰称,在原有版本上,“蛙蛙写作2.0”通过多模态直接生成视频故事,实现了从“小说”到“剧本”再到“视频”的全链路内容创作。
在用户留存方面,姜昱辰告诉创投日报记者,从1月上线到现在,大模型Weaver已经为用户累计生成了超过200亿字的内容,C端应用写作用户达到将近30万,人均使用时长为4.7小时。
而对于用户价值方面,姜昱辰表示,在与用户的沟通中发现,有一个更贴近自己风格的大模型,是内容创作者们的需求。“内容创作者们不需要通用性AI,而是千人千面、量身定制的AI,这实际上是用户最底层的诉求。在1月发布的蛙蛙写作1.0版本上,大模型‘Weaver’已经添加搜索增强,通过个性化知识库和RAG方案,在一定程度上实现‘越写越懂你’的仿写效果,但这种方式有天花板,且隐私性相对欠缺,对于个人和企业用户来说均是痛点。”
为此,在过去半年,波形智能技术团队围绕该痛点进行研发,最终研发出“Life-long Personalized AI”(LPA)技术路线,实现个性化、保护隐私的大模型。
具体而言,要做到个性化,首先需要打造一套好的记忆体系。“在这方面,波形智能比较幸运,在长记忆上有较深的技术积累,是全球第一个提出无限时长文本生成的团队,再通过ChatGPT技术和动态传感器机制,实现无限式长文本生成。”姜昱辰谈到。
长记忆之外,可控性也非常重要。波形智能创始人兼CEO姜昱辰告诉创投日报记者,在模型微调层面,波形智能分别对SFT阶段、Agents层级、推理方面进行了技术创新,最终减少大模型生成中的累计误差。
截至目前,波形智能在底层算力的支持之上,正在努力打造一个个性化的、自驱动进化的底层模型,安全并能保证用户隐私的使用环境,以及像蛙蛙写作、AI Learning等多元化领域的产品落地。
好的大模型应用落地,不仅需要核心技术,还要对垂直产品有深度理解,波形智能在核心团队上也有着满足这一条件的配置。公开资料显示,波形智能的创始团队来自浙江大学及苏黎世联邦理工大学。
其中,创始人兼CEO的姜昱辰本科毕业于浙江大学竺可桢学院,是浙江大学对优秀本科生实施特别培养和精英培养的荣誉学院;之后,姜昱辰在苏黎世联邦理工大学人工智能攻读博士,师从国际著名学者Ryan Cotterell,专攻自然语言生成方向,曾在微软亚洲研究院从事大语言模型的训练与推理研究。
首席运营官方面,联合创始人兼COO的余腾,曾任美国上市公司掌门教育(ZME)联合创始人兼营销高级副总裁,拥有丰富的商业化经验、大规模团队管理经验和C端营销增长经验。值得一提的是,余腾也来自于浙江大学竺可桢学院。
CTO和CPO方面,周王春澍在苏黎世联邦理工大学就读博士,从事人工智能方向研究;CPO万磊则出自腾讯,为过亿月活社交APP高级产品经理,多款AI产品创始人。
一位投资人在接受创投日报记者采访时表示,近一年来,生成式AI领域发生诸多变化,一是语言类应用占比显著下降。“在GPT模型之上套壳做简单的应用,已经无法满足用户需求。越来越多的创业公司意识到,多模态肯定会带来更好的用户体验和功能,所以多模态应用比例上升到了近50%。”
二是,更多公司深入到某一个具体行业和场景中,比如医生助手、科研助手、写作助手。同时,新应用不断出现,资讯、漫画、短剧等都是Agent赋能的领域。
三是,底层基础设施创业公司增多,比如RAG检索增强、Workflow、推理优化等公司。“在AI赋能千行百业之下,未来更多2C和2B的Agent产品会出现在用户视线中。”
特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
文章来源于“创投日报”,作者“陈美”
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner