NIST发布新工具测试机器学习模型的抗攻击能力

关键要点

Dioptra工具:NIST发布了一款新的开源软件工具Dioptra,用于测试机器学习模型对多种攻击的抗性。攻击类型:该工具关注三种主要攻击类型:规避攻击、污染攻击和Oracle攻击。适用性:虽然最初针对图像分类模型,Dioptra同样可用于测试其他机器学习应用,如语音识别。用户友好性:Dioptra具有模块化设计和友好的网页界面,适合不同技能水平的用户。安全指导:伴随工具发布,NIST还发布了一份新的风险管理指导文件,强调生成性AI的双重用途模型风险。

美国国家标准与技术研究院NIST最近发布了一款新的开源软件工具,旨在测试机器学习ML模型针对各种类型攻击的抗性。这个名为Dioptra 的工具于上周五正式发布,并伴随了一份新的AI指导文件,这标志着从总统乔拜登签署的关于安全、保障和可信赖的AI发展的行政命令以来的第270天。

Dioptra工具已在GitHub上发布,旨在满足行政命令中NIST协助AI模型测试的要求,同时也符合NIST的AI风险管理框架中的“测量”功能。

NIST的一位发言人表示:“Dioptra的开源开发始于2022年,但直到上周五,7月26日,它才进入了alpha‘预发布’状态。与alpha版本相比,新的关键特性包括一个新的基于网页的前端、用户身份验证和所有实验元素的源头追踪,这使得结果的可重复性和验证成为可能。”

免费的Dioptra AI测试平台衡量三类攻击的影响

NIST的以前研究识别了对机器学习算法的三种主要攻击类别:规避、污染和Oracle。

规避攻击:旨在通过操纵数据输入例如,添加噪声触发不准确的模型响应。污染攻击:通过更改训练数据来阻碍模型的准确性,导致错误关联。Oracle攻击:旨在“逆向工程”模型,以获取其训练数据集或参数的信息。

最初构建Dioptra工具是为了测量对图像分类模型的攻击,但它也可以适应用于测试其他机器学习应用,如语音识别模型。

这个免费的平台使用户能够确定上述三类攻击对模型性能的影响程度,并可用于评估不同防御措施的有效性,如数据去噪或更强健的训练方法。

该开源测试平台采用模块化设计,支持用户对各种因素的不同组合进行实验,比如不同的模型、训练数据集、攻击策略和防御手段。

互动网页界面适应多种用户技能水平

新发布的Dioptra 100版本提供了多项功能,以最大化其对第一方模型开发者、第二方模型用户或购买者、第三方模型测试者或审计员以及机器学习领域研究者的可及性。

在模块化架构设计和用户友好的网页界面之外,Dioptra 100还具有可扩展性,能够与Python插件互操作,以添加新功能。同时,Dioptra还提供了文档和演示,以帮助编程经验较少的用户熟悉Dioptra实验。

该工具跟踪实验历史记录,包括输入和资源快照,支持可追溯和可重复的测试,能够揭示出帮助模型开发和防御更有效的洞见。

小牛加速器试用

Dioptra可以在多租户环境中部署,以便在用户之间共享资源和组件,同时也能够在单一本地计算机上部署。

NIST发布开源平台用于人工智能安全测试 媒体

Dioptra与基于Unix的操作系统如Linux或MacOS兼容性最佳,实验通常需要大量计算资源,Dioptra结构已在配备4个图形处理单元GPU的NVIDIA DGX服务器上进行了正式测试。

“NIST计划继续收集用户反馈,以改善Dioptra