为了消除恶意评论 Instagram加入了新的AI算法 - 产业互联网应用 - ENI经济和信息化网

当前位置：首页 >互联网•IT > 互联网+ > 产业互联网 > 正文

为了消除恶意评论 Instagram加入了新的AI算法

来源：网易智能：佚名 2017-07-03 10:03:38

每个词语在单独使用的时候都至少有一个意思，但这一意义可以根据不同的语境，甚至是随着时间的推移而变化。

一个充满中性词汇的句子可能就充满了敌意(“只有白人应该有权利”)，而一个充满潜在敌意词汇的句子(“去他妈的，他妈的你穿的什么”)在你承认它是坎耶·维斯特式的诗句的时候那就是中立的。

人类通常都擅长做这种语法分析，而机器却无法做到。然而，Facebook在去年6月宣布，它已经建立了一个文本分类引擎，以帮助机器翻译文字。

这个名为“深度文本”的系统是基于最高级人工智能的基础，和一种叫做“单词嵌入”的概念来运行的，意思是它的设计是为了模拟语言在我们大脑中的运行方式。当该系统遇到一个新单词时，它会像人类一样，试图从周围的其他单词中推断出它的意思。

例如，白色这个词在不同的环境中会有完全不同的意思，当你看到“雪、袜字、白宫或面粉这些词时都会想到白色。深度文本的设计初衷是要像人类一样思考，并随着时间的推移不断提高。

深度文本是一种内部工具，它可以让Facebook工程师快速处理大量的文本，创建分类规则，然后构建产品来帮助用户。如果你在Facebook上吐槽白袜队，这个系统应该很快就会发现你在谈论棒球，在更深层次上，它应该已经知道这是一项运动。如果你在谈论白宫，它分析你可能会想看新闻。如果你在雪附近使用“白色”这个词，它会觉得你可能会想买靴子。如果你谈论的是白色的面粉，也许你不应该出现在这个平台上。

正如Facebook所解释的那样，使用“深度文本”就像是在用鱼叉捕鱼。然后，开发者们就开始在河中跋涉。

在了解了深度文本之后，Instagram的高管们几乎立刻就看到了一个与Facebook竞争的机会，Facebook曾在2012年收购了一个平台：垃圾邮件。人们使用Instagram主要是为了拍照，但他们经常很快就会离开，因为界面下方很多没用的话，在那里，会有机器人(有时也是人类)推销产品，继续往下，或者只是没完没了地重复“成功”这个词。

Instagram要做的第一步是雇佣一些人来整理平台上的评论，并将他们归类哪些是垃圾，哪些不是垃圾。这类工作，大致相当于社交媒体上的消防员，在科技行业是很常见的。人类训练机器来完成单调甚至是令人沮丧的任务，机器最终会做得更好。如果人类把这些工作做好，机器就会失去工作。与此同时，所有人发布的消息都得到了深入的分析。

在分析员们整理了大量的污垢、丑闻和低等级的敲诈信息之后，五分之四的数据被导入了深度文本。然后，Instagram的工程师们努力创建算法，试图对垃圾进行分类。

同时，系统分析了每句话的语义，并将信息来源考虑在内。一个你不关注的人的笔记更可能是垃圾邮件，而不单单是那个人有问题;在塞雷娜·戈麦斯(SelenaGomez)的帖子里，那些没完没了的评论可能不是由一个人做的。

之后，使用算法来检测没有被投入深度文本的那五分之一的数据，以观察这些机器与人类分析的匹配程度。最终，Instagram对这一结果感到满意，该公司于去年10月悄然推出了这款产品。垃圾邮件开始随着算法的运行而逐渐消失，就像一个充满灰尘的大房间一下子变得很干净。

instagram不愿透露该工具减少了多少垃圾，或者泄露该系统是如何运作的内部秘密。当我们向一个垃圾发送者表现出防御姿态时，他们会思考如何反击。但是，Instagram的首席执行官凯文·斯特罗姆(KevinSystrom)却很高兴。

因此他决定在一个更复杂的问题上使用深度文本：消除刻薄的评论。或者，更具体地说，删除那些违反Instagram社区准则的评论，或者像该公司的一位发言人所说的，删除那些违反道德准则的评论。这些指导原则相当于社交媒体平台的宪法。Instagram公开发布了一个1200字的规则——要求人们永远尊重他人，永远不要赤身裸体——而且，它还有一个字数更多的内部要求，员工们会把它作为指南。

一个人看一看评论，然后判断它是否合规。如果不合规，他就会将其归类为一种类似于欺凌、种族主义或性骚扰的行为。这些分析员至少掌握两种语言，他们分析了大约200万条评论，每条评论都至少被分析两次。

与此同时，Instagram的员工们也在自己的手机上对该系统进行了测试，同时公司也在不断调整算法：选择和修改那些有用的，删除那些没用的。这些机器给每条评论在0到1之间打分，这就是Instagram的置信度，根据这个可以分析哪些评论是无礼的或不恰当的。

当置信度超过某个阈值，该评论就会受到攻击。和垃圾邮件一样，这些评论都基于对文本的语义分析，以及评论者和分析者的关系，还有发出评论者的历史背景等因素。陌生人比你的朋友发出的东西更容易被公正的评分。

今天早上，Instagram宣布该系统将正式上线。当你输入一些带有恶意或骚扰的东西，如果系统有效，那些话就会消失。这项技术将自动融入人们的信息流中，但也很容易关闭：只需在设置菜单中点击省略号，然后点击评论。

这个过滤器将首先只可以在英语中使用，但其他语言之后也会跟随。与此同时，Instagram还宣布，他们正在不断增强自己的机器人垃圾邮件过滤器，以使其他九种语言：英语、西班牙语、葡萄牙语、阿拉伯语、法语、德语、俄语、日语和中文中一些充满恶意的评论不会通过。

当然，也有新的风险，系统可能删除一些无伤大雅甚至有用的评论。托马斯戴维森建立了一个机器学习系统来识别Twitter上的仇恨言论，他指出，Instagram试图解决的问题将会多么困难。机器虽然是智能的，但它们可以被不同语言或不同语境中代表不同事物的单词所绊倒。

以下是一些他的系统作出的错误地判断：

“我这个周末没买酒，只买了20包香烟。我很骄傲，我还剩40英磅。“

“亚拉巴马队在过去的两周里被高估了，在他们的盔甲上，有太多的中国佬给他们造成的破坏。”

当被问及这些特定的句子时，Instagram并没有特别回应。他们只是指出系统也会出现错误。这个系统的基础是原始评分者的判断，而所有人都会犯错误。算法也是有缺陷的，而且他们可能会因为他们所接受的数据而产生偏见，而且，这个系统有着百分之一的错误率，但不是零。

在该系统推出之前，我问了斯特罗姆(Systrom)，他是否会让系统在艰难选择中挣扎，那些选择可能意味着要屏蔽那些不应该被屏蔽的东西。

“这是一个很经典的问题，”他回答道。“如果你目标明确，你会对一堆实际上相当不错的东西进行分类。”所以，你知道，如果你是我的朋友，我只是在和你开玩笑，Instagram就应该让它通过。我们不想做的事情就是在任何情况下屏蔽不应该被屏蔽的东西。但是现实是，这件事一定会发生，所以，最重要的问题是：这种误差幅度是否能阻止那些真正糟糕的东西?”他接着说，“我们不是来限制言论自由的。我们不是来限制朋友间的有趣对话的。我们在这里是为了确保我们可以消除Instagram上的负面评论。”

如果Systrom的说法正确的话，在这个系统的运作下，Instagram可能会成为互联网上最友好的地方之一。又或者，它看起来似乎过于精致和可控。或者，这个系统可能会开始删除友好的玩笑或政治言论。斯特罗姆(Systrom)渴望找出答案。他说：“机器学习的全部理念是，能够理解这些细微差别，它比任何一种算法都要好得多，也比任何一个人能做到的都要好得多。”“我认为，我们需要做的是找出如何进入这些灰色区域，并根据时间判断算法的性能，看看它是否真的能改进。”因为，如果它只能给我们带来麻烦，却不起任何作用，我们就会放弃它，重新开始研究新的东西。

编辑：吴莹娟

关键字： AI 深度文本系统运作