AI资讯新闻榜单内容搜索-AI安全

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI安全
你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化,我们距离AGI还有多远?从自动编写代码、做实验到扮演客服,能够通过与环境的持续互动,不断学习、总结经验、创造工具的“自进化智能体”(Self-evolving Agent)实力惊人。

来自主题: AI技术研报
7025 点击    2025-10-17 15:38
LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报
7896 点击    2025-10-17 15:33
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。

来自主题: AI技术研报
7365 点击    2025-10-17 09:33
NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%

在AI智能体日益依赖记忆系统的时代,一种新型攻击悄然兴起:记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架,通过共识验证和双重记忆结构,巧妙化解上下文依赖与自我强化错误循环的难题,让AI从被动受害者转为主动守护者,成功率高达95%以上。

来自主题: AI技术研报
7085 点击    2025-10-16 14:51
管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所(UK AI Security Institute)和艾伦・图灵研究所(Alan Turing Institute)联合进行的一项研究彻底打破了这一传统观念:只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞,且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报
8564 点击    2025-10-10 12:14
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御

随着 AIGC 图像生成技术的流行,后门攻击给开源社区的繁荣带来严重威胁,然而传统分类模型的后门防御技术无法适配 AIGC 图像生成。

来自主题: AI技术研报
7774 点击    2025-09-25 15:02
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。

来自主题: AI技术研报
6697 点击    2025-09-24 09:53
国内首个大模型“体检”结果发布,这样问AI很危险!

国内首个大模型“体检”结果发布,这样问AI很危险!

国内首个大模型“体检”结果发布,这样问AI很危险!

近日,国内首次针对AI大模型的实网众测结果正式公布,一场大型“安全体检”透露出不容忽视的信号:本次活动累计发现安全漏洞281个,其中大模型特有漏洞高达177个,占比超过六成,这组数据表明,AI正面临着超出传统安全范畴的新型威胁。

来自主题: AI资讯
6449 点击    2025-09-23 10:27
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

来自主题: AI技术研报
6922 点击    2025-09-21 11:09