你的位置:

AI是如何检测色情片的?

来源[未分类] 点击[46] 作者[游客] 时间[2019-02-24 11:35:04]

2018年12月17 日,Tumblr(汤博乐)网站宣告即日起周全禁止色情内容。当这项新的政策实行了两周后,就立马暴显露了问题。在Tumblr的人工智能系统成功部署后,它对一些中立的内容进行了错误标记,招致该网站的4.554亿个博客和1662亿个帖子无辜躺枪。它们的内容仅包含花瓶、女巫、鱼类和介于它们中间的所有内容。

今朝该公司并未对此有任何回应,也不清楚Tumblr使用的是何种内容过滤技术,或许是否创建了自己的内容过滤系统,但显然,社交网站在政策和技术方面都堕入了困境。例如,关于“女性乳头”和“艺术裸体”的外延,Tumblr 以为是取决于上下文语境,这透显露Tumblr自己也不确定它想要在平台上禁止甚么内容。也难怪,站在企业的态度,究竟该若何定义“淫秽”内容呢?

如果难以定义,就很难阻止“淫秽”内容

首先,定义“淫秽”本是个陷阱。历史可以追溯到1896年左右,当时美国首次经由过程规范“淫秽”的司法。1964 年,“雅各贝利斯诉俄亥俄州”一案中,关于俄亥俄州是否可以禁止出演有名的路易・斯马勒(Louis Malle)片子,最高法院给出了多是迄今最有名的无关“硬核色情”的一句话。

“我本日不打算进一步去定义我所理解的那种在速记中被包含的内容,‘硬核色情片’,大概我永久也不会成功地做到这一点。但我知道,当我看到它的时候,它的动作画面就不是这样了。” 法官波特・斯图尔特在他的附和看法中如是说。

机械进修算法也处于异样的窘境,这是Picnix(一家提供定制化AI服务的公司)?的首席执行官Brian DeLorge正试图办理的问题。Iris是其产品之一,专门用于检测色情内容的客户端运用程序。正如DeLorge所说,“谁不希望生活中有点色情内容?”他指出另外一个问题,色情片可所以很多不同的器械,但色情与非色情图像会共享相似的图像特性。

一张海滩上派对的照片可能被封杀不是因为它上面展现的皮肤比一张办公室的照片更多,而是因为它触碰着色情图像的边缘线了。“这便是为甚么很难将图像识别算法训练成一种可广泛运用的办理方案,”DeLorge继续说到,“如果关于“淫秽”的定义对人类来说很难题,那对机械进修技术来也异样如斯。”如果人们没法就色情是甚么杀青同等,那么AI是否有望进修外面的差异呢?

教 AI 若何检测色情片,第一件事便是收集色情片作为训练集

网上有很多的色情片。在哪里可以得到它们呢? “人们经常从Pornhub、XVideos等网站下载,”Lemay.ai的联合创始人兼首席技术官Dan Shapiro说到。Lemay.ai是一家为其客户创建 AI 过滤技术的始创公司。“这是一个合法的灰色地带,但若你正在使用其余人的内容进行训练,(训练)结果是否属于你?”

从你最喜欢的色情网站取得训练数据集之后,下一步是从色情的视频中删除了所有不是色情内容的帧,以确保你正在使用的帧不是像一个拿着披萨盒子的人。平台会向大多半美国以外的人付费,来标注这些内容。这一般为一个低人为的重复劳动,就宛如那些每一次填一个验证码的工作。Dan Shapiro说到,“他们只是标注像‘这类色情片’或‘那种色情片’。通常你还可以再过滤一下,因为色情片上已经有很多可用的标签了”。当你使用不单单包含色情内容的大数据集时,训练效果每一每一会更好。”

Shapiro说:“很多时候,你不仅须要过滤色情内容,而且也须要过滤掉与色情内容相近的器械。像人们贴出的这些虚伪档案,一张女孩的照片,一个电话号码。”在这里,他指的是寻觅客户的性工作者,但很容易就被误以为是合法问题。“这不是色情片,但它是你不想放在平台上的器械,对吗?”一个好的自动化的检测模型至少须要在数百万级的内容上进行训练,这象征着须要投入大量的人力。

“这就类似于孩子和成年人世的不同,”Clarifai的创始人兼CEO?Matt Zeiler说道,Clarifai是一家为企业客户提供图像过滤的盘算机视觉守业公司。“我可以说这是事实,几个月前咱们刚生了一个孩子。他们对这个天下一无所知,统统都是新的。“你必须向宝宝展示很多器械,以便他们进修。“你须要数以百万计的例子,但关于成年人,由于现在咱们已经领有了很多关于天下的违景知识,并理解它是若何运作的,咱们只须要几个例子就能够学到新器械,”他说。

上述笔墨说明一遍便是:训练AI系统来过滤成人内容,就好比向宝宝展示大量的色情内容。

本日,像Clarifai这样的人工智能技术供应商已经成长起来了。他们对天下有很多根基知识,也便是说他们知道狗是甚么样,猫是甚么样,甚么是树,甚么不是树,和最主要的,甚么是裸体,甚么不是裸体。Zeiler的公司使用自己的模型为其客户训练新模型,因为原始模型已经能处理很多半据,是以定制的版本仅须要来自客户的新训练数据,就能启动和运转。

人工智能算法的判断无须定准确?

对显著是色情的内容,分类器效果很好;但它可能会错误地将内衣广告标记为色情,因为图片中的皮肤比例更多。(例如,分类器很难正确分辨比基尼和内衣。)这象征着做标签的人必须对那些模棱两可的训练集更细心,须要优先考虑模型难以分类的内容。那个中最难的一个例子是甚么呢?

“动漫色情片。咱们的第一版色情检测算法没有接受过任何卡通色情内容的训练。”很多时候人工智能系统会失败,因为它不理解甚么是变态。“是以,一旦咱们为该客户做这样的工作,咱们就将大量数据整合到模型中,就大大的进步了检测漫画的准确性,并同时保持了在真实照片上的检测准确率,”Zeiler说。“你不知道你的用户会做甚么。”

用来检测色情片的技术也能够用来检测其余器械。系统的根基技术异常灵巧。这个灵巧度比得上动漫里夸大的胸部。Perspective,是一个来自 Alphabet's Jigsaw的被广泛用于报纸自动评论的模型。

Jigsaw的沟通主管Dan Keyserling说,在Perspective之前,“纽约时报”只对约莫10%的作品揭橥评论,因为他们的版主可以在一天内处理的数量有限。他声称Jigsaw的产品可以使这个数字增加三倍。该软件与图像分类器的工作方式类似,不同的地方在于它对“毒性”进行排序,它们定义“毒性”为某人可能会根据评论而不是色情进行的对话。(毒性在文本评论中异样难以识别,就好比识别图像中的色情图像。)再比如,Facebook使用类似的自动过滤技术来识别无关他杀的帖子和内容,并试图利用该技术在其庞大的平台上发现虚伪新闻。

整个工作仍依赖于标记数据才能发挥作用

Zeiler其实不以为他的产品会让任何人失业。它原来便是在办理互联网上的“尺度问题”。一个婚礼博客Clarifai使用其产品来进行自动化的内容审核,而之前担任审批图像的编辑则转向从事定性标记的任务。这其实不是要下降自动化下真实的人力本钱。人们必须对AI进行训练,并对内容进行分类然落先行标记,以便AI能够识别哪些不能或可能招致创伤后应激阻碍(PTSD)。

这才是未来应有的样子:公司提供个性化,现成的办理方案,使其全部营业能够在越来越多的数据上训练更好的分类器。就像Stripe and Square为不想在内部处理支持的企业提供现成的支付办理方案一样,而AWS已经确立了自己作为托管网站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等守业公司正在争相成为在线内容审核的一站式办理方案提供商。Clarifai已经领有适用于iOS和Android的软件开发套件,Zeiler表斧正在努力让产品在物联网装备(如安全摄像头)上运转,但实际上,那象征着每一个装备上都须要有优化的AI芯片或足够的终端盘算资源。

Lemay.ai的Dan Shapiro满怀希望。“与任何技术一样,它尚未完整发明成功,”他说。“所以这样做是分歧理的,就好比我对一家公司的安排不满意,就开始想着放弃。”但无监督进修是不是一条好的前途?这就比较隐晦了。他说:“你须要从某些地方取得训练数据”,这象征着总会触及到人的因素。“不过这是一件好事,因为它会减轻人们的压力。”

另外一方面,Zeiler以为AI终有一天能够自己适应统统。他说:“我以为很多人的努力方向将转变为人工智能本日没法做到的工作,比如高等推理、自我意识,就像人类所领有的那样。”

识别色情片便是个中的一部分。识别它关于人来说是一项相对简略的任务,但训练算法识别个中的纤细差别却要难题得多。搞清楚检测模型将图像标记为色情或非色情的阈值也很难题,而且还遭到数学上的限定。该函数称为精确-召回率曲线(precision-recall curve),它描写了模型返回结果的相干关系,然则人类须要的是灵敏度。

正如Alison Adam在其1998年出版的《人工知识:性别与机械思维》一书中提到的那样,不管是进修、在空间中移动和互动、推理,照样使用语言,AI的目的是“模仿人类智能的某些方面”。AI是咱们若何看待天下的一个不完美的镜子,就像色情是当两小我独处时的反应一样:它可以说是一种片面性的真理,但却不是整个全貌。

参考链接:

https://www.theverge.com/2019/1/30/18202474/tumblr-porn-ai-nudity-artificial-intelligence-machine-learning

本文采集于网易新闻,作者整理!!!


分享

    最新评论:



评论文本(10-200个字符)超出部分会被自动删除.
刷新 点击图片刷新验证码,防止恶意攻击,验证码刷新延时5秒!
广告2