「超级助手」正在走进现实。
7 月 15 日,a16z 一位研究员在推特上发布消息,提出 a16z 新的投资方向—— AI 记录员(Scriber)。各大领域的「超级助手」,正在帮助人们在人力、商业、教育等多个领域提升生产力。
来源:https://twitter.com/omooretweets/status/1812878684182942144
记录员作为一个古老的职业,历史可以追溯到文字的发明。这个角色在需要沟通的领域至关重要,比如商业、法律、宗教等。像是记者、作家、历史学家等职业,他们的记录还会成为历史的一部分,见证着社会变迁。
在今天,「记录」的需求在工作生活中也处处可见。在医疗、法律和政府领域,这类职业多被称作「书记员」。美国有大约 10 万名医疗记录员,每 10 名医生就有一名。不过,许多其他角色也承担着记录员的责任——翻译人员、教育工作者、研究人员、销售人员、助理。
记录并不是一个便宜便捷的工作。记录员相当于雇佣另一个人来听写和转录,通常相当昂贵。AI 的出现,使每个人都能负担得起自己的书记员。同时,AI 在很多方面甚至远超人类的水平。
想象一个这样的超级助手:它能够旁听一切会话,自动做出完美笔记,并为你标记出后续安排。它还可以即时提醒你可能错过的见解、信息与新闻等等。
无论在生活还是工作中,有这样一个助手,不仅能够帮助人们减轻日常压力,更能够让人们毫不费力地获得新知。
根据 a16z 研究员介绍,该类 AI 记录员的产品堆栈分层如下:
一是语音转文字。模型可以将语音转录成文字,许多语音转录员使用开源或 API 可用的模型进行自动语音识别,但可能会根据词汇或口音进行调整。对于某些用例,模型在离线状态下、高噪声区域等情况下的性能可能尤为重要。
二是结构化处理和总结。对话的原始记录通常不是获取信息最有帮助的格式,LLMs 可以用来总结和组织访谈记录,并提炼出洞见或后续的指南。
三是处理输出的工作流。LLMs 还可以对生成的输出结果采取具体行动,而且效果甚至比单纯处理转录内容还要好。想象一下,AI 抄写员可以将销售电话中的信息推送到 CRM(客户关系管理系统) 中,或者可以利用医生与患者的对话内容来填写保险预授权表格。
a16z 对那些使用 AI 助手,作为进入垂直软件领域的产品感到兴奋。这些语音数据往往是企业所有其他业务的「上游」数据,因此AI抄写员可以成为个人或公司的记录系统。
a16z 举出了一些公司作为案例。
在语音转文字方面,首先是 Freed AI 。Freed 为医生做 SOAP 笔记。根据推特上的@ErezDruk ,该公司在一年内达到了 1000 万美元 ARR。临床医生通过使用 Freed,每周节省数小时——他们不再需要在周末和晚上撰写预约报告。
类似上述的 Freed,Scribenote 是兽医的人工智能助手。该产品非常独特,可以便捷全面地捕捉兽医面临的多种不同预约类型,例如牙齿检查等。
视频方向的例子是 Rilla。
该 AI 助手是一位面对面会议的销售教练。作为书记员,它可以记录、转录并分析每一次销售培训。这使得销售经理能够以更细致的方法指导代表,将原本的「黑箱」转变为系统化评估。
另一款产品 Granola 是一款记事本应用程序。它能够为在连续会议中的人设计的,用户多为招聘人员、销售人员、风险资本家等。它没有设置会议机器人,适合需要专注的场景。它能够合并手动和自动的笔记,快速摘要,多人共享等。
最后的一个例子是 Aqua。它在模型上进行了创新,具有通过语音编辑文本的能力。例如,你可以对它说,「把这些内容都放在文档开头」。这使得它非常适合长篇写作——那些需要反复思考表达内容的场景。
文章来自于微信公众号“Founder Park”,作者 “Founder Park”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址:https://github.com/openai/whisper
在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax