当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型 关键词: 对齐,模型训练,大语言模型,AI越狱 本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。 来自主题: AI技术研报 4775 点击 2024-08-31 15:09
冰毒配方脱口而出,过去时态让GPT-4o防线崩塌!成功率从1%暴涨至88% 关键词: GPT-4o,AI,LLM,人工智能,AI越狱 最高端的大模型,往往需要最朴实的语言破解。来自EPFL机构研究人员发现,仅将一句有害请求,改写成过去时态,包括GPT-4o、Llama 3等大模型纷纷沦陷了。 来自主题: AI资讯 6613 点击 2024-07-21 00:27
GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析 关键词: GPT-4o,AI越狱,chatGPT,AI,大模型 GPT-4o,比上一代更容易被越狱攻击了? 来自主题: AI技术研报 8529 点击 2024-06-12 15:11