一般来说,即使我们的用户不太可能对系统进行恶意攻击,也用程序,但我们仍然会对毒性、偏见和安全性进行强大的 ai 红队测试,以确保如果发生任何恶意使用或良性滥用,我们的系统是安全的。
红队类型
进行红队测试主要有两种方式——手动和自动化。以人为参与有助于识别模型或产品构建团队之前可能未发现的一系列风险。通过利用他们的创造力和生活经验,我们可以大大增加可以发现的有害输出类型。通过自动化测试,我们可以生成数千甚至数万个随机“攻击”来评估性能。我们了解到,两种方法都需要成功。
手动红队手动测试利
用人类测试人员的创造力、经验和专业知识,这些测试人员的思维方式与对手相似,利用他们的专业知识制定自动化系统可能忽略的复杂而精密的攻击策略。人类测试人员还可以更好地理解他们正在测试的系统的细微差别和背景,并且他们可以根据特定的环境、目标和目的调整方法,使他 们的攻击更加 电报数据 现实和有针对性。
由于手动红队测试涉及真人,因此它能够带来自动化系统无法实现的一定程度的不可预测性和创造性。这种不可预测性对于识别标准化测试中可能无法发现的风险至关重要。
我们可能会从“冒烟测试”开始手动测试,这是一种浅层测试,旨在在投入资源进行更深入、更耗时的评估之前快速进行。在这种轻量级测试中,我们会寻找容易实现的目标(例如,产品能否 在产品发布后非常有 准确完成预期功能?),以便立即解决这些问题,然后进行更深入的测试以发现更难发现的问题。
然后们可能会转
向更强大的内部红队测试,使用员工或领域专家。在我们自己的组织中执行这项工作可以鼓励和激励员工或其他测试人员在向公众发布产品和流程之前识别并批判性地处理其中的道德问题、偏见或潜在危害。让不同的社区参与对抗性测试过程会带来一系列生活体验,这有助于识别系统设计者可能不明显的偏见、道德问题和潜在危害。我们的员工表示,他们希望更多地参与改进我们的人工智能系统,内部测试让他们有机会发挥作用,同时利用 slesforce 内部的不同观点来发现更广泛的道德问题。因此,我们将他们纳入了两种 学生手机清单 类型的测试活动不会试图“破坏。
黑客马拉松:一大群具有对抗心态的人聚集在一起(虚拟或面对面)在指定的时间内攻击你的模型。白宫去年在 def con 上 支持了这样的黑客马拉松。