瞄准AI越狱漏洞
前有三位90后创办的Cohere估值冲向360亿美元,后有95后郭文景创办的Pika拿到55亿美元估值。很显然,硅谷里的AI创业潮正在影响所有人,00后Leonard Tang也是被裹挟进去的万分之一。
Leonard Tang是AI安全创企 Haize Labs的创始人兼CEO,也是今年哈佛大学本科毕业生。
他创办的Haize Labs通过一段视频展示了AI大模型安全防线的“脆弱”。只需短短几行提示,就能绕过大模型的安全限制,从而让AI大模型生成大量的色情文字、血腥图片等,甚至可以自动攻击其他网络。
目前,Haize Labs主要通过其打造的首款AI产品——自动化套件Haizing。该套件主要通过攻击AI大模型进行压力测试,以发现AI大模型的安全漏洞。据外媒winbuzzer报道,明星AI创企Anthropic、Scale AI均是其客户。
Haize Labs成立于2023年12月,在成立不到7个月的时间里,Haize Labs就收到至少四份投资意向书,知名基金Coatue也参与其中。知情人士透露,Haize Labs已经获得了General Catalyst领投的最新投资,估值达到1亿美元。
在短短1-2轮融资中就获得高额估值,这般融资速度和规模业内都少见。一方面可以看出,投资者对Haize Labs信心十足,另一方面也显示了AI安全赛道的潜力。
国际调研机构CB Insight报告显示,机器学习安全市场(MLSec)正快速增长。2023年AI安全创企投融资总额高达2.13亿美元,远超于2022年的7000万美元。
据硅兔赛跑不完全统计,2024年,北美已经出现了至少5家AI安全独角兽,至少39家AI安全创企获得新融资,累计融资达8亿美元。
“目前AI大模型安全领域还是空白的创业蓝海市场。”一位投资人士说。
随着AI攻击、AI大模型越狱事件不断发生,人们对AI失控的风险担忧日益增加。Haize Labs以AI越狱为切入口,以AI大模型安全为抓手,投身入局。
“每个人都对大模型越狱行为视而不见。”
Leonard Tang在接受媒体采访时提到,这也成为了他和两位朋友Richard Liu、Steve Li一起创办Haize Labs契机。
据VentureBeat报道,Leonard Tang如今暂停了斯坦福大学博士课程的第一年学业,专注于Haize的发展。Richard Liu、Steve Li则兼顾学业,成为了伯克利人工智能研究实验室的本科研究员。
Haize Labs的创始人、CEO Leonard Tang告诉VentureBeat,Haize Labs其实是自己本科阶段有关对抗性攻击和大模型稳健性研究的商业化成果。大学期间,他主修了数学和计算机科学两大专业课程。
Leonard Tang第一次对LLM(大语言模型)模型越狱产生兴趣大约是在两年前,当时他尝试通过对图像分类器进行对抗性攻击,绕过Twitter的NSFW(Not Safe For Work)过滤器,该工具专门过滤一些不适宜在工作场合查看的内容。
随后,他发现AI浪潮中似乎每个人都对大模型越狱行为视而不见,于是受到启发着手专注AI可靠性和安全性的研究。
今年4月,他在Github上发表了一篇有关《如何轻松越狱Llama3》的论文。论文指出,Llama 3这类大语言模型缺乏自我反省的能力,一旦被诱导,大模型也不知道自己输出的文字是什么意思。
从其哈佛网站的个人主页来看,Leonard Tang在大学期间的经历丰富多彩。除了学业上对LLM模型广泛研究,他还拥有在多家AI大厂实习的经验,比如说在英伟达MagLev的ML基础工程实习生,参与到自动驾驶汽车研究。再比如说,作为亚马逊SDE实习生,从事大数据供应链物流工作。
另外两位联合创始人Richard Liu和Steve Li同样是AI领域的研究员。Steve Li是哈佛大学计算机科学专业的大四学生,主要专注人工智能安全、语音处理、操作系统和机器学习系统的研究。他曾在Roblox的用户安全团队实习,参与到报告功能和 ML分类管道的工作中。
背靠哈佛,冲向硅谷。他们还获得了一些顾问和天使投资者的支持,建立自己的人脉圈。这其中包括卡内基梅隆大学和哈佛大学的教授、Okta、HuggingFace、Weights and Biases、Replit 的创始人,以及谷歌、Netflix、Stripe、Anduril 等公司的人工智能和安全高管。Graham Neubig等顾问为Haize Labs 提供 LLM 评估方面的专业知识
业内的AI越狱大神@Pliny the Prompter也是Hazie的朋友和合作方。@Pliny the Prompter以可以迅速攻破Llama 3.1、GPT-4o的安全防线而闻名,他曾表示只需要30分钟左右的时间,就能破解世界上最强大的人工智能模型。
可以看出,Haize Labs已经在AI大模型安全领域建立了一定初步影响力,并且有了自己的关系网络,推动相关合作。
最开始,Haize Labs测试了当下许多知名的生成式AI程序、像是AI视频Pika、ChatGPT、图像生成器DALL-E等等。他们发现许多知名工具都会产生暴力或色情内容,甚至会指导用户生产生化武器,并允许自动进行网络攻击。
这是因为传统审查如基于人工审查、关键词过滤等方法去检验大模型输出内容不精确。
因为AI大模型通常基于深度学习和大量数据训练,其决策过程可能不透明,这种“黑箱”特性使得传统审查难以控制潜在的风险。
同时,AI大模型能够不断学习和适应新的数据,其输出可能随着时间和输入的变化而变化。传统审查机制往往静态和滞后,难以跟上AI大模型的动态变化。
此外,AI大模型可以处理和分析大量数据,生成内容的速度、新的表达方式和内容,都有可能会远超于传统审查机制的预期。
这也导致了无论是OpenAI审查工具Moderation API、谷歌的过滤模型Perspective API,还是Meta的保护模型Llama Guard,性能表现效果都很差。
Hazie对各大AI模型进行越狱测试时,发现Anthropic旗下Claude模型的安全性表现较好,而像Vicuna和Mistral这类没有明确执行安全微调的模型很容易进行越狱操作。
面对越狱合法性的质疑,Haize Labs表示他们更希望主动出击,才能提供防御性解决方案,预防此类事件发生。
俗语道,不打不相识。
有意思的是,不少曾被攻击过的机构、模型公司并没有起诉Haize,反而还成为了合作伙伴。
如今,Haize Labs的客户有AI爱好者、政府的附属机构、模型供应商等。
Haize Labs和AI大模型创企Anthropic达成了3万美元试点合作、与AI创企AI21签约了五位数的协议,并且还与AI模型平台Hugging Face、英国人工智能安全研究所(AISI)和AI工程联盟MLCommons达成合作。
不仅如此,Haize Labs与Scale AI签署了50万美元意向书,目标是对医疗保健和金融领域的LLM进行特定领域的压力测试,每次更新时都会重新评估模型以保持稳健性。
Haize Labs打造的Haizing套件是一套搜索和优化算法,结合了模糊测试和红队测试技术,可以较为全面的检查AI系统。该产品主要在开发阶段诱导大模型出现幻觉,进行压力测试,从而更好提醒开发者安全漏洞的问题。
“只有通过严格、可扩展且自动地测试您的模型以了解其所有极端情况和弱点,客户才能开始修复这些弱点。”Leonard Tang说。
Haizing Suite升级了多种算法,使用强化学习等技术检测有害内容输入。它利用各种测试场景来发现潜在的问题点,并且通过反向定义不良行为为行动指导。
该套件拥有免费版和商业版,其中免费版需要申请,商业版则是Hazie的主要盈利来源。Haizing套件商业版,将为基础模型服务商和应用程序层的客户提供CI/CD haizing和运行时防御解决方案。
AI大模型的巨头们也注意到AI大模型越狱安全性问题,并先后提醒人们注意。
OpenAI也曾邀请各领域专家通过对抗性方式帮助提高模型的安全性和可靠性,也就是招募“红队队员”
微软详细介绍了一种名为“Skeleton Key”的越狱技术,用户通过诱导的方式,绕过大模型的安全机制并让模型认为,自己输出的内容是在“合法范围”之内。
Anthropic则发现随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。“现在是时候努力减小大模型越狱的潜在风险了,否则它们可能造成严重危害。”Anthropic在公告中说道。
在大模型快速发展的今天,安全一直成为人们绕不开的话题。
现阶段,AI激进派与AI保守派各执一词,以自己的准绳预测着AI大模型安全的风险值。前不久,马斯克的AI大模型 Grok 2.0正在以无所限制地生成AI内容,挑战着用户的敏感神经。AI激进派认为如果对AI越狱行为进行全面封锁,或许会阻碍AI大模型的灵活性和响应能力。
Haize则是通过自动化各种不同类型的攻击,测试各个AI大模型的安全漏洞,试图为AI大模型建立更稳固的防线。
但同时,我们也能看到各大AI大模型厂商已经开始对AI越狱行为进一步防守。若是Haize的成长仅局限于AI越狱方向,业务方向似乎较为单一,也难以支撑后续发展。
文章来自于微信公众号“硅兔赛跑”,作者:Xuushan
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0