当前位置:主页 > 智能优化 >

综述 一文看尽三种针对人工智能系统的手艺及防


来源:未知  发布时间:2017-09-27 08:36 浏览次数:

  龙8娱乐本文综述了三种针对人工智能系统的手艺——匹敌性输入、数据中毒及模子窃取手艺,正在每一种的会商中都插手了具编制子及防御策略,旨正在为所有对操纵人工智能进行反防御感乐趣的人供给一个概述。

  匹敌性输入:这是特地设想的输入,旨正在确保被误分类,以检测。匹敌性输入包含特地用来防病毒法式的恶意文档和试图逃避垃圾邮件过滤器的电子邮件。

  数据中毒:这涉及到向分类器输入匹敌性锻炼数据。我们察看到的最常见的类型是模子偏斜,者以这种体例污染锻炼数据,使得分类器正在归类好数据和坏数据的时候向本人的偏好倾斜。我们正在实践中察看到的第二种是反馈兵器化(feedback weaponization),它试图反馈机制来系统将好的内容误分类为类(例如,合作者的内容或者报仇性的一部门)。

  模子窃取手艺:用来通过黑盒探测「窃取」(即复制)模子或恢复锻炼数据身份。例如,这能够用来窃取股市预测模子和垃圾邮件过滤模子,以便当用它们或者可以或许针对这些模子进行更无效的优化。

  这篇文章是关于若何利用人工智能建立鲁棒的反系统系列文章中的第四篇,也是最初一篇。第一篇文章注释了为何 AI 是建立鲁棒的系统的环节,这种用来满脚用户期望和日益提拔的复杂。正在引见完建立和启动一个基于 AI 的防御系统的天然过程之后,第二篇博文涵盖了取锻炼分类器相关的挑和。第三篇文章切磋了正在出产中利用分类器来的次要坚苦。

  声明:这篇文章旨正在为所有对操纵人工智能进行反防御感乐趣的人供给一个概述,它是那些正正在腾跃不雅望的人的潜正在蓝图。因而,这篇文章侧沉于供给一个清晰的高条理总结,成心不深切手艺细节。也就是说,若是你是一名专家,我相信你会发觉你以前没有传闻过的设法、手艺和,但愿你会遭到,并进一步摸索它们。

  敌手不竭用新的输入/无效载荷来探测分类器,试图逃避探测。这种无效载荷被称为匹敌性输入,由于它们被明白设想成绕过度类器。

  这是一个匹敌输入的具编制子:几年前,一个伶俐的垃圾邮件发送者认识到,若是统一个 multipart 附件正在一封电子邮件中呈现多次,Gmail 将只显示上图屏幕截图中可见的最初一个附件。他将这一学问兵器化,添加了不成见的第一个 multipart,此中包含很多出名的域,试图逃避检测。此是称为环节字填充的类此外一个变体。

  一般来说,分类器迟早会晤对两种匹敌性输入:变异输入,这是为避开分类器而特地设想的已知的变体;零日输入,这是正在无效载荷之前从未见过的。让我们顺次探究每一种匹敌性输入。

  正在过去的几年里,我们看到地下办事爆炸式增加,这种办事旨正在帮帮收集犯罪制制不成探测的无效载荷,正在奥秘世界中最出名的是 FUD(完全不成探测的) 无效载荷。这些办事从答应针对所有防病毒软件测试无效负载的测试办事,到旨正在以使恶意文档不成检测的体例混合恶意文档的从动打包法式。的截图展现了两个如许的办事。

  因而,必需开辟检测系统,使者难以进行无效负载优化。下面是三个环节的设想策略来帮帮实现这一点。

  这里的方针是确保者正在探查你的系统时获得尽可能少的收成。连结反馈最小化并尽可能延迟反馈是很主要的,例如避免前往细致的错误代码或相信度值。

  此策略的方针是通过者针对你的系统测试无效负载的频次来降低者的速度。通过者对你的系统施行测试的频次能够无效降低他们设想无害无效负载的速度。

  这一策略次要是通过对稀缺资本(如 IP 和帐户)实施速度来实现的。这种速度的典型例子是要求用户处理验证码,验证他能否发布的太屡次,如上所示。

  这种自动勾当率的负面影响是,它会激励不良行为者建立假账户,并利用受损的用户计较机来分离他们的 IP 池。业内普遍利用限速常活跃的暗盘论坛兴起的一个次要驱动要素,正在这些论坛中,账户和 IP 地址被常规出售,如的截图所示。

  最初但同样主要的是,连系各类检测机制,使者更难绕过整个系统。利用集成进修将基于声誉的检测方式、人工智能分类器、检测法则和非常检测等分歧类型的检测方式连系起来,提高了系统的鲁棒性,由于不良行为者不得分歧时制做避免所有这些机制的无效载荷。

  例如,如的截图所示,为了确保 Gmail 分类器对垃圾邮件制制者的鲁棒性,我们将多个分类器和辅帮系统连系正在一路。如许的系统包罗声誉系统、大型线性分类器、深度进修分类器和其他一些奥秘手艺。

  若何制做深度神经收集(DNN)的匹敌例子是一个很是活跃的相关研究范畴。现正在,建立难以察觉的扰动,完全骗过 DNN 是一件小事,如从论文《Explaining and Harnessing Adversarial Examples》()截取的图片所示。

  比来的研究 (表白,CNN 容易遭到匹敌性输入,由于他们倾向于进修概况的数据集的法则性,而不是很好地泛化和进修不太容易遭到噪声影响的高级表征。

  这种会影响所有 DNN,包罗基于加强进修的 DNN (,如视频中所强调的。要领会更多关于此类的消息,请阅读 Ian Goodfellow 关于此从题的引见文章,或者起头测验考试 Clever Hans 的尝试 ()。

  从防御者的角度来看,这品种型的曾经被证明(到目前为止)常有问题的,由于我们还没有无效的方式来防御这种。从底子上说,我们没有一种无效的方式让 DNN 为所有输入发生优良的输出。让他们如许做常坚苦的,由于 DNN 正在很是大的空间内施行非线性/非凸优化,我们还没有教他们进修泛化优良的高级表征。你能够阅读 Ian 和 Nicolas 的深度文章()来领会更多关于这个的消息。

  另一种能够完全丢弃分类器的较着的匹敌性输入是新的。新的不常发生,但晓得若何应对仍然很主要,由于它们可能具有相当大的性。

  虽然呈现新有很多不成预测的潜正在缘由,但按照我们的经验,以下两种事务可能会触发新的呈现:

  新产物或功能推出:素质上,添加功能会为者打开新面,有益于它们快速进行探查。这就是为什么新产物发布时供给零日防御是需要的(但很难)。

  添加励 :虽然很少会商,但很多新的激增是由前言鞭策的,变得很是有益可图。这种行为比来的一个例子是,针对 2017 岁尾比特币价钱飙升, Google Cloud 等云办事来挖掘加密数字货泉的行为有所昂首。

  跟着比特币价钱飙升至 1 万美元以上,我们看到新的如火如荼,窃取 Google 云计较资本用于挖掘。稍后我将正在这篇文章中引见我们是若何发觉这些新的。

  总之,Nassim Taleb 形式化的黑天鹅理论(Black swan theory)合用于基于人工智能的防御,就像它合用于任何类型的防御一样。

  然而,不是由于你无法预测哪些会丢弃你的分类器,或者如许的什么时候会你,而你为力。你能够环绕这类袭击事务进行规划,并制定应急打算来缓解这种环境。正在为黑天鹅事务做预备时,这里有几个能够摸索的标的目的。

  起首要做的是开辟和测试事务恢复过程,以确保正在措手不及时做出恰当反映。这包罗但不限于:正在调试分类器时,有需要的控件来延迟或遏制处置,并晓得挪用哪个。

  Google SRE(坐点靠得住性工程)手册有一章关于事务办理(),还有一章关于应急响应 ( )。相关愈加以收集平安为核心的文档,该当查看 NIST (National Institute of Standards and Technology)收集平安事务恢复指南()。最初,若是你更情愿看一段对话,请看一下「Google 若何运转灾难恢复培训 (DiRT) 法式」的视频 (,以及「Faceboook 若何做出事务响应」的视频()。

  较着的环节坚苦是你没有过去的数据来锻炼你的分类器。缓解这一问题的一种方式是操纵迁徙进修,它答应你沉用一个域中曾经存正在的数据,并将其使用到另一个域。

  例如,若是你处置图像,你能够操纵现有的事后锻炼好的模子(),而若是你处置文本,你能够利用公共数据集,好比Toxic Comment的 Jigsaw 数据集。

  非常检测算法能够用做第一道防地,由于从素质上说,新的将发生一组从未碰到过的非常,这些非常取它们若何利用你的系统相关。

  激发一系列新反常现象的新的汗青性案例是针对州 WinFall 彩票逛戏的麻省理工赌钱集团()。

  早正在 2005 年,多个赌钱集团就发觉了 WinFall 彩票系统的一个缺陷:当累积金正在所有参取者之间等分时,你每买一张 2 美元的彩票,平均就能挣 2.3 美元。每次资金池跨越 200 万美元时,这种被称为「roll-down」的就会发生。

  为了避免取其他集体分享收益,麻省理工学院的集体决定提前三周大规模买断彩票,从而激发一场减持步履。很较着,这种从少少数零售商手中采办的大量彩票形成了彩票组织察觉到的大量非常现象。

  比来,正如本文前面提到的,当比特币价钱正在 2017 年疯狂上涨时,我们起头看到一多量不良行为者试图通过免费利用 Google cloud 实例进行挖掘,从这一高潮中获益。为了免费获取实例,他们试牟利用很多前言,包罗试图我们的免费层、利用被盗信用卡、风险云用户的计较机以及通过收集垂钓劫持云用户的帐户。

  很快,这种变得很是风行,以致于成千上万的人旁不雅了 YouTube 上关于若何正在 Google cloud 上挖掘的教程(这正在一般环境下是无利可图的)。明显,我们无法意料恶意挖矿会成为如斯庞大的问题。

  幸运的是,当非常发生时,我们曾经为 Google Cloud 实例预备了非常检测系统。正如意料的那样,从我们的非常检测系统仪表板上间接获取的上图中能够看出,当实例起头挖掘时,它们的时间行为发生了庞大的变化,由于联系关系的资本利用取未的云实例所显示的保守资本利用有着底子的分歧。我们可以或许利用这种移位检测来遏制这种新的前言,确保涉及到的云平台和 GCE 客户端连结不变。

  第一种中毒称为模子偏斜,者试图污染锻炼数据,以挪动分类器对好、坏输入归类的进修鸿沟。例如,模子偏斜能够用来试图污染锻炼数据,分类器将特定的恶意二进制文件标识表记标帜为良性。

  正在实践中,我们经常看到一些最先辈的垃圾邮件制制者集体试图通过将大量垃圾邮件演讲为非垃圾邮件来使 Gmail 过滤器偏离轨道。如图所示,2017 年 11 月底至 2018 岁首年月,至多有 4 次大规模恶意步履试图我们的分类器。

  利用合理的数据采样:需要确保一小部门实体(包罗 IP 或用户)不克不及占模子锻炼数据的大部门。出格是要留意不要过度注沉用户演讲的假阳性和假阳性。这可能通过每个用户能够贡献的示例数量,或者基于演讲的示例数量利用衰减权沉来实现。

  将新锻炼的分类器取前一个分类器进行比力以估量发生了多大变化。例如,能够施行 dark launch,并正在不异流量上比力两个输出。备选方案包罗对一小部门流量进行 A/B 测试和回溯测试。

  建立尺度数据集,分类器必需精确预测才能投入出产。此数据集抱负地包含一组细心筹谋的和代表你的系统的一般内容。这一过程将确保你可以或许正在兵器化对你的用户发生负面影响之前,检测出该何时可以或许正在你的模子中发生显著的回归。

  第二类数据中毒是将用户反馈系统兵器化,以用户和内容。一旦者认识到你正正在出于赏罚的目标以某种体例利用用户反馈,他们就会试牟利用这一现实为本人投机。

  我们正在 2017 年目睹的最令人的将用户反馈兵器化的测验考试之一是一群 4chan 用户,他们决定通过留下数千个 1 星评级 CNN 正在使用商铺的排名。

  反馈兵器化之所以被积极操纵,有良多缘由,包罗:试图合作、进行报仇、本人的行迹。的截图展现了一个暗盘帖子,会商了若何利用 Google 来击败合作敌手。

  不要正在反馈和赏罚之间成立间接轮回。相反,正在做出决定之前,确保评估反馈实正在性,并将其取其他信号连系起来。

  不要认为受益于内容的所有者对此负有义务。举例来说,不是由于一张照片获得了数百个假的「赞」所有者才买下它。我们曾经看到无数袭击者为了他们的踪迹或试图让我们赏罚用户而内容的案例。

  若是不提及旨正在恢复锻炼期间利用的模子或数据消息的,这篇文章将是不完整的。这种是一个环节问题,由于模子代表了有价值的学问产权资产,这些资产是按照公司的一些最有价值的数据进行锻炼的,例如金融买卖、医疗消息或用户买卖。

  确保接管过用户数据(如癌症相关数据等)锻炼的模子的平安性至关主要,由于这些模子可能被,泄露用户消息 ( 。

  模子沉建:这里的环节思惟是者可以或许通过探测公共 API 来从头建立模子,并通过将其用做 Oracle 来逐渐完美本人的模子。比来的一篇论文()表白,这种似乎对大大都人工智能算法无效,包罗支撑向量机、随机丛林和深度神经收集。

  泄露:正在这里,者建立影子模子,使他可以或许确定给定的记实能否用于锻炼模子。虽然此类无法恢复模子,但可能会泄露消息。

  最出名的防御模子窃取的方式是 PATE ( ,这是一个由 Ian Goodfellow 等人开辟的现私框架。如上图所示,PATE 背后的环节思惟是对数据进行划分,并锻炼多个组合正在一路的模子来做出决策。这一决策随后被其他分歧现私系统的噪声所。

  要领会更多相关差分现私的消息,请阅读 Matt 的引见文章()。要领会更多关于 PATE 和模子窃取的消息,请阅读 Ian 关于此从题的文章()。

  是时候竣事这一系列关于若何操纵人工智能冲击欺诈和的长文了。本系列的次要收成(详见第一篇文章)是:

  正如这篇文章和前两篇文章所会商的那样,要使这项工做正在实践中阐扬感化,还有一些坚苦需要降服。可是,既然 AI 框架曾经成熟并有很好的文档记实,那么正在你的防御系统中起头利用 AI 是再好不外的时候了,所以不要对这些挑和望而却步。