Google仅索引了全球数据的4%,还有96%的非结构化私密数据没被索引和查询,AI驱动的企业知识管理搜索引擎Hebbia希望将这部分数据的价值释放出来,成为知识工作者的可靠帮手。
它的AI产品能够索引、阅读和理解非结构化私密数据,在复杂数据集上的表现比当前最先进的机器学习信息检索技术平均高出57%,搜索速度和准确度提升十倍。
近日,Hebbia获得1.3亿美元的B轮融资,本轮的投资方包括a16z,Index Ventures(从种子轮开始支持)、Peter Thiel以及谷歌的风险投资部门。B轮融资后,Hebbia的估值在7亿至8亿美元之间。
该公司在2022年9月完成了3000万美元的A轮融资,由Index Ventures领投,Radical Ventures参投。
它此前的个人投资人还包括Yahoo创始人杨致远,Google早期投资者及创始董事会成员Ram Shriram,以及Scale AI创始人Alexandr Wang、UC 伯克利机器人实验室主任Pieter Abbeel等。
在过去的18个月里,Hebbia的收入增长了15倍,员工人数增加了五倍,它的模型调取量,占OpenAI每日流量的2%以上。
很多“白领类”工作都可以看成知识类工作,其中尤其典型的是金融类、法律类和部分媒体类,知识类工作者们经常需要面对海量的非结构化数据和资料,他们需要从这些资料中“淘出金子”。这些工作通常非常花时间,留给知识工作者真正思考的时间变得很少。
此前,已经有不少软件帮助知识工作者更好地完成工作,例如金融领域有Bloomberg或Capital IQ,法律领域有Westlaw或Lexis Nexis(现在又有了Harvey们),销售领域的Salesforce或HubSpot也可以算,但是他们仍然不够高效。
Hebbia由斯坦福大学退学的博士生George Sivulka于2020年创立,他16 岁时就开始为NASA工作,还发表了一篇在国际科学会议上获奖的关于计算模拟的论文。
他在2年多时间内获得斯坦福数学学士学位,之后获得应用物理学硕士学位,在攻读人工智能博士学位期间开始创业。
他在观察自己在金融行业工作的朋友们时发现,他们每周都工作100小时,花大量的时间搜索和翻阅数千份文件,加上处理材料和思考的时间,根本没办法好好休息和睡眠。
Sivulka发现NLP可以帮助解决这一问题,但是市面上的产品都不够先进,那时是2019年,Transformer刚开始火热,于是他花了一个周末创建了一种新的浏览器插件,这个插件使用Transformer回答网页上的人类问题,而不仅仅是关键词匹配特定短语。
几天内,他的插件引起了法学院,金融学院和斯坦福实验室学生的兴趣,他们都看到了单网页AI搜索的实用性,并希望在他们的大量私有文档中也能使用同样的工具。
于是,Sivulka着手建立能够检索和处理私有数据的AI工具,它能够帮助知识工作者和其所在组织处理海量数据和文件。Hebbia能够索引PDF扫描件,PPT,表格,转录文档等一切文件,并即时创建加密的专家搜索引擎,以回答复杂的问题。
a16z的投资人Alex Immerman认为Sivulka是一个罕见的天才,既有技术理解力,可以与工程师和研究人员深入交流,又有商业头脑,可以与行业巨头打成一片。
Hebbia首先在金融行业获得了初步成功,该行业每年花费1000亿美元,部署团队每周花费60多小时研究高风险交易数据。Hebbia迅速获得了几家全球最大私募股权公司、对冲基金、咨询公司的付费客户。
现在分析师们面对海量的数据,被这些数据搞得疲于奔命,而在这个错误代价高昂的世界里,一个尽职调查的错误就可能导致八位数以上的损失。Hebbia 通过自动化投资过程中的重复步骤,使团队能够更准确地找到每一个交易点。
事实上,它的功能可以扩展到每一个知识工作者密集的行业:管理咨询公司通过报告更好地了解客户的业务,律师阅读成千上万的合同进行尽职调查,这些专业人士是高杠杆且昂贵的资源,使他们的工作效率提高20%,就能节省八位数的资金并大大降低金融风险。
“Hebbia正在攻克一个困扰行业多年的数十亿美元难题:公司如何高效利用大规模敏感数据?答案就在Hebbia的技术中。George和Hebbia团队将改变我们每个人寻找答案的方式。”Index Ventures 合伙人 Mike Volpi 表示。
尽管AI模型的能力持续进化,并且有不少创新者开始挑战Transformer的地位,但是大模型在应用层面的创新却不多,可以称为杀手级应用的只有ChatGPT,以及众多模仿它的Chatbot,但是聊天界面对于解决复杂问题来说明显不够,对于商业机构里的知识工作者,他们需要适应自己工作方式的界面。
Hebbia的创新重点显然在于产品而不仅是模型,它自己的基础模型也来自OpenAI等大模型厂商。Hebbia想要解决的是知识工作者们面对的复杂问题,做的是严肃的工作,而不是to C的Chatbot就能解决的单点简单问题,而且它还同时要保证企业数据的安全性。
以Hebbia为代表的AI时代新产品预示着我们正进入一个新的SaaS时代,从软件即服务(Software-as-a-Service)转向服务即软件(Service-as-a-Software)。服务即软件的核心不在于软件的形式,而在于用AI模型的能力解决复杂问题,帮助企业拿结果。
“能够理解人类语言的AI将成为下一个十年最具影响力的发明。我们从变革金融服务行业开始,但这只是一个开始。
我们相信,人工智能不仅仅是一个交易型聊天机器人,它应该像人类一样工作。Hebbia为知识工作者设计,用户可以指示AI代理按照自己的方式完成任务,无论任务多么复杂,数据集多么庞大。
我们希望创造一个AI代理对全球GDP贡献超过每个员工的世界。”Hebbia 创始人兼 CEO George Sivulka表示。
Hebbia的主要产品是Matrix,这是一个能够构建完成端到端任务的AI代理,它可以跨多个文件和格式摄取结构化和非结构化数据,在需要时检索信息,并以熟悉的电子表格格式提供有引用的答案。对于每个文档(行),你会得到一组问题的答案(列),并看到每个代理的单独输出(相应的单元格)。除了总结每个查询外,Matrix还展示了其得出结论的来源和各个步骤,完全透明。
在技术原理上,一旦用户提供了查询及相关文件,Matrix会将提示分解为更小的操作,由底层的大模型执行。这使其能够一次性分析文档中包含的所有信息,并以结构化形式提取所需内容。Hebbia表示,该平台使模型能够处理任意数量(从数百万到数十亿)和形式的数据,同时提供相关引用,帮助用户追踪每一个操作,理解平台是如何得出最终答案的。
公司还强调其多模态和多模型能力,即能够与不同的大模型和不同类型的数据配合工作,这样AI就能处理任何类型的信息和任何形式的数据。
举例,Hebbia可以解决以下这些问题:
私人第三方数据搜索
“Databricks的前10名客户是谁,他们如何随时间增长,管理层在内部演示中讨论了什么?”
“哪些发起人在他们的信贷协议中为增加债务设置了最宽松的条款?”
专有内部搜索
“我们的预测增长率减速与所有先前的IC备忘录相比如何?”
“在过去10年中,我们见过哪些公司年度收入增长超过5倍,他们的关键指标是什么(规模、NDR、利润率)?”
公开数据搜索
“FTX债权人如何恢复了118-142%的索赔?”
“标普500中有多少公司谈论AI , 报告AI的可量化影响?”
目前Hebbia的主要客户群体还是在金融服务领域,包括蓝筹资产管理公司、投资银行和财富500强企业,几位客户表示,在使用Hebbia的产品后,以前需要2-3小时的分析现在只需2-3分钟,并能产生他们以前无法想象的新输出。
为了进一步提高效率,Hebbia在Matrix中嵌入了金融服务特定的数据、模板和功能。Matrix也初步显示出网络效应:大多数用户发现自己的用例并建立自己的模板,然后与同事分享。高级用户已将Matrix作为日常工作流程的核心部分,他们的模板使平台对其组织更有用。这种灵活性推动了超越金融服务的采用,客户包括法律和咨询、军事和政府、制造业、制药等。
挖掘企业私有数据的价值不是一个新需求,从软件时代到SaaS时代,有为数众多的数据分析和商业分析软件不断的更新。但是限于当时的机器智能发展程度,它们更多起的是辅助作用。在大模型能力飞速发展的今天,在AI的帮助下,像Hebbia这样的软件已经可以像人类员工一样,直接给出结果,真正意义代替部分辅助员工的工作,并为具有决策能力的那些员工节省大量时间精力。
当然,在Hebbia这个方向努力的不止一家公司,此前我们已经介绍过的 Glean已经发展成为独角兽,并且专注于商业生产力领域,Vectara 等公司也在企业数据基础上实现生成式 AI 体验。
目前来看,AI在美国的创新,不仅有模型层面的创新,也有应用和产品的创新,尤其是在他们历来擅长的商业服务和商业软件上。
生成式AI在中国的发展,目前看大部分企业仍在追求模型的创新,去年卷的是大语言模型的评测分数,大家纷纷宣布超越了GPT-4,今年卷的是视觉大模型,视频大模型,大家纷纷吊打Sora。在产品上,Chatbot和Agent搭建平台是主流。但是真正深入到企业生产力场景的仍旧是少数。
其实中国的AI创业者们完全可以将眼光放到企业领域,中国也有大量沉睡的商业私有数据,有不错的基础模型,有能力出众的产品经理,创业者们应该是既有机会,也有能力做出世界一流的AI企业应用的。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/