漏洞赏金:这些通常是异步进行的,可以限制在一段时间内,也可以永久开放给任何人参与。个人受到激励去发现漏洞并报告它们以获得奖励。这些用,可以发现在发布前未发现的新危害。
当我们进行手动测试时,我们要求我们的道德黑客使用两种方法:(1)非结构化和(2)结构化。在前者中,个人可以自由选择他们想要测试的风险类型(例如毒性、准确性、错误信息)以及如何编写这些提示。在后者中,某些类别的风险被确定为优先事项(例如政治偏见、刻板偏见、毒性)或为参与者模仿而制作特定的角色,并指示红队成员一次系统地攻击单个类别中的模型。这种方法可以帮助生成足够的输入/输出对,用于指令调整,如反学习。
自动红队自动化方法是人工
测试和评估的增强,而不是替代。这种类型的测试涉及使用脚本、算法和软件工具在短时间内模拟大量攻击或对抗场景,系统地探索系统的风险面。这种方法使我们能够针对数千甚至数万种不同的攻击媒介测试我们的系统,从而对潜在漏洞进行广泛评估。这些测试可以不断重复,并且可重复性对于验证随着时间的推移或在对系统进行更改后实施的减轻危害措施的有效性非常有用。作为额外的好处,一旦开发出来,这些工具在概念上可以在最少的人为干预下运行,从而使它们更具成本效益,需要更少的人力资源,并能够 进行大规 tg 到数据 模测试。
最后,我们清楚地认识到,自动化评估很难扩展,但仍然至关重要。因此,我们一直采用一种称为“模糊测试”的方法来自动化我们的一些测试,即根据手动测试中成功的人工攻击(在我们的手动测试中或其他已知的攻击中确认为成功)生成随机测试用例,将这些测试用例传递给目标模型并收集输出,然后评估每个测试用例是通过还是失败。
虽然手动和自动红队测试各有优势,但单凭 邮寄线索 任何一种方法都不足以完全保护或评估系统。然而,这些方法结合起来,形成了一个全面的红队测试策略,可以最大限度地识别风险,增强系统的整体安全性和弹性。在未来的文章中,我的一些同事将深入探讨其中一些测试方法以及我们在此过程中学到的东西。
聘请外部专家
除了我们内部所做的所有工作之外,我们还聘请了专家进行渗透测试(通过我们安全团队的bug bounty计划)和其他创造性攻击(根据我们的白宫 ai 自愿承诺,我们最近选择外包对我们 学生手机清单 的两个 einstein for developers (e4d) 产品和我们的研究多模式模型 pixelplayground 的测试)。利用第三方可能会有所帮助,因为他们可能以与您完全不同的方式处理产品和模型,从而提供更广泛的风险来缓解。外部专家对这两种产品进行了对抗性攻击,重点是使产品生成有偏见或有毒的代码,同时还提供非结构化攻击。我们鼓励其他人也与安全和 ai 主题专家合作,进行逼真的端到端对抗性模拟。我们将在后续博客中详细介绍我们与外部专家的合作。