AI资讯新闻榜单内容搜索-大模型安全

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型安全
管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所(UK AI Security Institute)和艾伦・图灵研究所(Alan Turing Institute)联合进行的一项研究彻底打破了这一传统观念:只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞,且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报
7277 点击    2025-10-10 12:14
只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

只需一块 4070,一个小时,Gemini 2.5 就能被黑产植入广告!

说个热知识,现在的大模型,也可以轻松被投广告了。 我们之前也确实发现过这类现象,当时是在研究一家做 GEO(生成式引擎优化)的公司。通过在网上堆出大量正面内容,把某个特定品牌、网站、课程甚至微商产品,默默地塞进了大模型推荐结果里。

来自主题: AI技术研报
6687 点击    2025-08-29 16:01
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。

来自主题: AI技术研报
7833 点击    2025-06-25 16:41
连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。

来自主题: AI技术研报
6279 点击    2025-04-22 17:58
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。

来自主题: AI技术研报
4320 点击    2024-11-06 14:57
微软们掉进大模型安全漩涡

微软们掉进大模型安全漩涡

微软们掉进大模型安全漩涡

大模型的安全问题正在悄悄逼近。

来自主题: AI资讯
9140 点击    2024-06-24 15:51
腾讯发布大模型安全与伦理报告:以负责任AI引领大模型创新

腾讯发布大模型安全与伦理报告:以负责任AI引领大模型创新

腾讯发布大模型安全与伦理报告:以负责任AI引领大模型创新

在1月24日举办的腾讯科技向善创新节2024“大模型安全与伦理专题论坛”上,腾讯发布了大模型安全白皮书《大模型安全与伦理研究报告2024:以负责任AI引领大模型创新》,并邀请业界专家进行圆桌研讨。

来自主题: AI资讯
6970 点击    2024-01-30 10:53
「HydroX AI」完成400万美元天使轮融资,为大模型安全提供解决方案

「HydroX AI」完成400万美元天使轮融资,为大模型安全提供解决方案

「HydroX AI」完成400万美元天使轮融资,为大模型安全提供解决方案

HydroX AI近日完成400万美元天使轮融资,由绿洲资本领投.HydroX AI成立于2023年7月,位于美国加州,是一家专注于AI Safety(大模型安全)和Safe AI(安全人工智能)的科技企业,致力于为大模型公司、使用大模型的企业以及其他B2B行业的客户提供全方位、多层次的AI安全解决方案。

来自主题: AI资讯
6614 点击    2023-11-06 09:46