ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
破解大模型“黑盒”问题?DeepMind科学家联手,试图提高生成式AI的可解释性
3441点击    2024-10-07 14:35

图片来源:Goodfire


Z Highlights


  • Goodfire于2024年在旧金山成立,研发用于提高生成式AI模型内部运作可观察性的开发工具,希望提高AI系统的透明度和可靠性,帮助开发者更好地理解和控制AI模型。


  • Goodfire由Daniel Balsam、Eric Ho和Tom McGrath联合创办,他们分别在RippleMatch、Google积累了丰富的研发和企业管理经验。Daniel Balsam和Eric Ho曾在RippleMatch密切合作,而Tom McGrath曾创建了DeepMind的可解释性团队。


  • Goodfire在种子轮融资中获得700万美元,该轮融资由Lightspeed Venture Partners牵头,多家知名投资机构以及著名的天使投资者参与。资金将用于扩大团队规模和加强技术研究,支持公司在AI可解释性领域的进一步发展。



01 模型黑盒问题:为何解读AI“思维”如此重要?


AI模型的黑盒特性一直是人工智能领域长期存在的一个挑战。尽管AI在处理大量数据方面表现出色,能够从复杂的数据集中学习并做出预测,但它们的内部工作机制对于大多数人来说仍然是一个谜。这种缺乏透明度的状态导致了对AI模型可靠性和安全性的普遍担忧。因为如果人们无法完全理解这些模型是如何学习和做出决策的,就很难确保模型的决策是公正、无偏见的,也难以在模型出错时进行有效的调试和修正。


为了解决这个问题,很多研究人员正在探索如何提高AI模型的可解释性,使AI系统的决策过程更加透明,让人们能够理解模型的工作原理和决策依据。目前可解释性AI的实现方式包括但不限于:通过使用决策树、逻辑回归等简单直观的模型,或者采用局部可解释性方法如LIME(Local Interpretable Model-agnostic Explanations),这些方式可以帮助理解模型对特定实例的决策过程,不仅有助于增强用户对AI系统的信任,还能够在模型出现错误时提供排查错误的途径。


然而,提高AI模型的可解释性依然存在巨大的挑战。一方面,随着模型的复杂性增加,如深度学习模型,其内部的决策过程可能涉及非常大量的参数和多层次的计算,这使得解释模型的决策变得更加困难。另一方面,即使是可解释性模型,也可能在特定情况下无法提供足够的信息来完全理解模型的行为。


为了应对这些挑战,研究人员正在开发更先进的技术,Goodfire也致力于研发相关产品,寻求问题的最优解。Goodfire正在构建关键基础设施,使开发人员能够大规模理解、编辑和调试人工智能模型,确保创建更安全、更可靠的系统。


图片来源:X


02 Goodfire:将可解释性研究应用于AI模型行为的实际理解和编辑


Goodfire开发的产品是第一个将可解释性研究应用于AI模型行为的实际理解和编辑的产品。Goodfire产品的洞察力和控制可能会减少对昂贵的再训练或提示工程的需求,使AI开发更加高效和可预测。他们的产品具有多个特性:


1.可解释性工具:Goodfire的产品通过使用基于可解释性的工具来理解和编辑AI模型的行为。这些工具提供了一个人类可解释的界面,解释模型输出背后的内部决策过程,使开发人员可以直接访问模型的内部机制,并改变不同概念对修改模型决策过程的重要性。


2.编辑模型行为:Goodfire的工具允许开发者直接访问模型的内部机制,并改变模型决策过程中不同概念的重要性,从而修改模型的行为。


3.精确控制:Goodfire的联合创始人兼CEO Eric Ho将这一过程比作对AI模型进行“脑部手术”,包括三个关键步骤:


  • 绘制大脑图谱:像神经科学家使用成像技术来观察人脑内部一样,Goodfire使用可解释性技术来了解不同神经元对应于的不同任务、概念和决策。


  • 可视化行为:在绘制大脑地图后,Goodfire通过创建一个界面,让开发人员轻松发现模型的问题,从而提供工具来了解大脑的哪些部分对有问题的行为负责。


  • 执行手术:基于这种理解,用户可以对模型进行非常精确的更改,比如,就像神经外科医生可能会仔细操纵特定的大脑区域一样,删除或增强特定的功能来纠正模型行为,从而用户可以提高模型的能力,消除问题,修复错误。


Goodfire正在为AI生态系统构建关键基础设施,并有机会开创AI堆栈的新篇章,以一种可访问的方式为在关键任务环境中部署AI的组织生产这些工具。


图片来源:Goodfire


03 连续创业者+DeepMind科学家携手创办


Goodfire的创始团队在AI领域有多年的工作和研究经历。Eric Ho曾表示:“我们的使命是从根本上促进人类对先进AI系统的理解,这使我们走到了一起。”


Eric Ho是Goodfire的联合创始人兼CEO。2016年,Eric与Andrew Myers联合创立了由高盛支持的AI招聘的初创公司RippleMatch,希望通过利用AI来改变早期的职业招聘,在此期间,Eric花了时间思考招聘、工作、人工智能和人工智能安全的未来,专注于组建团队、产品愿景、技术和公司战略。Eric Ho本科毕业于耶鲁大学的计算机科学专业。


图片来源:Linkedln


Daniel Balsam是Goodfire的联合创始人及CTO。Daniel在纽约大学本科毕业后,曾在Controlco担任软件工程师,并领导团队设计、实施移动友好型网站,使公司能够自动化、跟踪和可视化其能源消耗。2016年Daniel选择离开Controlco,而在TixTrack担任软件工程师,致力于白标票务解决方案。在离开TixTrack后,Daniel曾担任RippleMatch的软件工程师,与Eric Ho密切合作,领导了RippleMatch的核心平台和机器学习团队,并将产品扩展到数百万活跃用户。


图片来源:Linkedln


Tom McGrath则在取得帝国理工大学的博士学位后,加入谷歌DeepMind做研究科学家,创立了可解释性团队,主要负责研究AI模型如何推理和做出决策,以及如何使这些模型的内部工作机制更加透明和可理解,在2023年,Tom选择离开DeepMind。在2024年,Tom选择与Dan Balsam、Eric Ho创办Goodfire,并担任首席科学家。


图片来源:Linkedln


04 种子轮即获700万美元融资,多家知名投资参与


Goodfire宣布完成了700万美元的种子轮融资,试图揭开生成式AI模型的“黑匣子”。这轮融资由Lightspeed Venture Partners领投,Menlo Ventures、South Park Commons、Work-Bench、Juniper Ventures、Mythos Ventures、Bluebirds Capital等参与,这将加速Goodfire开发突破性的工具来理解、编辑和调试AI模型。


“Goodfire正在构建软件2.0的IDE,解锁探索、调试和编辑大型语言模型的能力,使我们更接近安全可靠的人工智能。”公司本轮领投方Lightspeed Venture Partners在文章中写到,“Goodfire正在为AI生态系统构建关键基础设施——能解释其他模型的AI模型以及能从这些模型中解锁价值的接口。Goodfire有机会在AI技术栈中开创一个新的领域,以便于非研究人员和在关键任务环境中部署AI的企业使用这些工具。”


Goodfire描述了一个非常诱人的前景——我们可以像今天编写代码那样原子化、可解释地“操纵”AI模型。然而,也留了一个巨大的问号:在众多模型厂商都还未能解决模型黑盒问题的今天,Goodfire作为第三方如何能够解决这个问题,并且能够对多个不同的模型都有效?


Goodfire的官网显示,产品目前尚不可用,用户需要申请加入waitlist。


References:

https://goodfire.ai/

https://lsvp.com/stories/goodfire-building-interpretable-ai/

https://venturebeat.com/ai/goodfire-raises-7m-for-its-brain-surgery-like-ai-observability-platform/

https://siliconangle.com/2024/08/15/goodfire-ai-raises-7m-try-demystify-ai-systems-using-mechanistic-interpretability-techniques/


文章来自于微信公众号“ Z Potentials”,作者“ Z Potentials”


关键词: 大模型 , AI , Goodfire , AI公司