ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
“浙大系”杀入多模态
8206点击    2024-07-30 10:59


开发和应用大语言模型的杭州波形智能,正式杀入多模态领域。


波形智能创始人兼CEO姜昱辰表示,较于其他杀入多模态领域的公司,波形智能无限长内容生成的关键词是“个性化”。一位投资人在接受创投日报记者采访时表示,近一年来,生成式AI领域发生诸多变化,包括语言类应用占比显著下降等。‌

多模态AI崛起之下,创业公司加速涌入。近日,创投日报记者获悉,开发和应用大语言模型的杭州波形智能科技有限公司(下称“波形智能”),正式杀入多模态领域。


波形智能创始人兼CEO姜昱辰告诉创投日报记者,之前公司拥有的自研Agents框架和专门的写作大模型Weaver,主要聚焦于长篇小说、剧本、深度文章的长内容生成领域。


“但今年基于市场需求,公司已开始聚焦多模态,从‘无限长文本生成’拓展到‘无限长内容生成’,覆盖文本、音频、影像的全链路内容创作。”姜昱辰对创投日报记者表示,较于其他杀入多模态领域的公司,波形智能无限长内容生成的关键词是“个性化”。


可以看到,生成式AI正在进入商业落地的考验期,而多模态技术的采用,无疑是各项目探索应用的重要尝试。创投日报记者注意到,估值达200亿的智谱AI也进入了文生视频赛道,成为国内三家头部大模型公司中(智谱AI 、百川智能、月之暗面)率先涉足多模态领域的独角兽。


定制化AI,是C端用户的最终诉求


波形智能成立于2023年,实际控制人为杭州无量企业管理合伙企业(有限合伙),创始人姜昱辰通过该持股平台和自身持股,控制波形智能,合计持股比列近40%。


在年初的一笔融资中,蓝驰创投、西湖科创投、藕舫天使为投资方。融资完成半年后,波形智能创始人兼CEO姜昱辰近日对创投日报记者表示,波形智能在技术和用户留存上做了很多努力,并取得了一定成绩。


首先在技术上,波形智能具备从训练模型,到Agent搭建的全流程大模型能力。“波形智能的思路非常明确,通过提供低门槛的AI工具、数据准备、模型训练部署的AI Infra等,跨越大模型和个性化需求鸿沟。”


“为此,波形智能重点攻克个性化、可进化特性,叠加多模态、多语言能力。”姜昱辰称,在原有版本上,“蛙蛙写作2.0”通过多模态直接生成视频故事,实现了从“小说”到“剧本”再到“视频”的全链路内容创作。

在用户留存方面,姜昱辰告诉创投日报记者,从1月上线到现在,大模型Weaver已经为用户累计生成了超过200亿字的内容,C端应用写作用户达到将近30万,人均使用时长为4.7小时。


而对于用户价值方面,姜昱辰表示,在与用户的沟通中发现,有一个更贴近自己风格的大模型,是内容创作者们的需求。“内容创作者们不需要通用性AI,而是千人千面、量身定制的AI,这实际上是用户最底层的诉求。在1月发布的蛙蛙写作1.0版本上,大模型‘Weaver’已经添加搜索增强,通过个性化知识库和RAG方案,在一定程度上实现‘越写越懂你’的仿写效果,但这种方式有天花板,且隐私性相对欠缺,对于个人和企业用户来说均是痛点。”


多模态之下,浙大团队杀入


为此,在过去半年,波形智能技术团队围绕该痛点进行研发,最终研发出“Life-long Personalized AI”(LPA)技术路线,实现个性化、保护隐私的大模型。


具体而言,要做到个性化,首先需要打造一套好的记忆体系。“在这方面,波形智能比较幸运,在长记忆上有较深的技术积累,是全球第一个提出无限时长文本生成的团队,再通过ChatGPT技术和动态传感器机制,实现无限式长文本生成。”姜昱辰谈到。


长记忆之外,可控性也非常重要。波形智能创始人兼CEO姜昱辰告诉创投日报记者,在模型微调层面,波形智能分别对SFT阶段、Agents层级、推理方面进行了技术创新,最终减少大模型生成中的累计误差。


截至目前,波形智能在底层算力的支持之上,正在努力打造一个个性化的、自驱动进化的底层模型,安全并能保证用户隐私的使用环境,以及像蛙蛙写作、AI Learning等多元化领域的产品落地。


好的大模型应用落地,不仅需要核心技术,还要对垂直产品有深度理解,波形智能在核心团队上也有着满足这一条件的配置。公开资料显示,波形智能的创始团队来自浙江大学及苏黎世联邦理工大学。


其中,创始人兼CEO的姜昱辰本科毕业于浙江大学竺可桢学院,是浙江大学对优秀本科生实施特别培养和精英培养的荣誉学院;之后,姜昱辰在苏黎世联邦理工大学人工智能攻读博士,师从国际著名学者Ryan Cotterell,专攻自然语言生成方向,曾在微软亚洲研究院从事大语言模型的训练与推理研究。


首席运营官方面,联合创始人兼COO的余腾,曾任美国上市公司掌门教育(ZME)联合创始人兼营销高级副总裁,拥有丰富的商业化经验、大规模团队管理经验和C端营销增长经验。值得一提的是,余腾也来自于浙江大学竺可桢学院。


CTO和CPO方面,周王春澍在苏黎世联邦理工大学就读博士,从事人工智能方向研究;CPO万磊则出自腾讯,为过亿月活社交APP高级产品经理,多款AI产品创始人。


一位投资人在接受创投日报记者采访时表示,近一年来,生成式AI领域发生诸多变化,一是语言类应用占比显著下降。“在GPT模型之上套壳做简单的应用,已经无法满足用户需求。越来越多的创业公司意识到,多模态肯定会带来更好的用户体验和功能,所以多模态应用比例上升到了近50%。”


二是,更多公司深入到某一个具体行业和场景中,比如医生助手、科研助手、写作助手。同时,新应用不断出现,资讯、漫画、短剧等都是Agent赋能的领域。


三是,底层基础设施创业公司增多,比如RAG检索增强、Workflow、推理优化等公司。“在AI赋能千行百业之下,未来更多2C和2B的Agent产品会出现在用户视线中。”


特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。


文章来源于“创投日报”,作者“陈美


关键词: 多模态 , AI , 波形智能 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner