当前位置: 主页 > 国内 >

EMNLP 2017|普适知识处理实验室:Argotario - 计算论辩遇到严肃游戏

时间:2018-07-20来源:互联网 作者:编辑 点击:
你和“懂AI”之间,只差了一篇论文 很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。 为此,在多位AI领域

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第73篇论文

EMNLP 2017 System Demonstrations

Argotario: 计算论辩遇到严肃游戏

Argotario:Computational ArgumentationMeets Serious Games

普适知识处理实验室

Ubiquitous Knowledge Processing Lab

【摘要】批判性思维和辩论的一项重要技能就是发现和识别谬论的能力。谬误的论点在辩论讲话中无处不在,可能具有欺骗性、操纵性、或者只是在讨论中导致“错误的举动”。尽管它们很重要,但以辩论质量为中心的辩论学者和NLP研究人员还没有对谬论进行实证研究。由于缺少处理谬误的资源,因此需要使用可伸缩的数据获取和标注方法,而严肃游戏方法提供了一个很有吸引力但尚未被探索的替代方法。我们展示了Argotario,一种严肃游戏,在日常辩论中处理谬误。Argotario是一种多语言的、开源的、独立于平台的应用程序,具有强大的教育功能,可以通过www.argotario.net访问。

1 引言

近年来,自然语言中的辩论已经引起了NLP团体的广泛关注。而理解一个论元的结构,是论元挖掘和计算论辩的主要任务(Mochales and Moens,2011; Stab和Gurevych,2014;Habernal和Gurevych,2017),一串平行的研究试图评估论元的定性性质(Habernal和Gurevych,2016b;Stab和Gurevych,2017)。然而,理论和日常辩论之间的差距,在理解论元质量实际上是什么时,仍然是一个悬而未决研究问题(Wachsmuth et al,2017;Habemal Gurevych,2016)。

然而,辩论法和批判性思维教科书对论元质量提出了另一种观点,即谬论的概念:原始典型的论元方案或假装正确和有效的论元类型,但在逻辑上、情感上或修辞上(Hamblin,1970)是错误的。尽管这个话题最初是由亚里士多德在2300年前提出的,但当代对谬误的研究仍然没有提供一个统一的观点和冲突,即使是在基本问题上(Boudry et al.,2015;Paglieri,2016)。然而,不幸的是似乎有几种类型的谬论,如人身攻击论(攻击对手而不是她的论点)各种情感诉求,烟雾弹的修辞举措(转移到不相干的问题)或轻率的归纳,这些都在我们的日常争论话语中广泛传播。在一些人工分析(Sahlane,2012; Nieminen Mustonen,2014)中,揭示了他们强大甚至有害的影响。据我们所知,尚没有任何关于谬论的NLP研究,也没有任何资源考虑对这一问题进行实证研究。

由于缺乏谬论标注语言资源,因此需要从头开始创建和标注一个新的数据集,这激励我们调研严肃游戏(有目的的游戏目)——一个场景,在该场景中,一个任务是游戏化的和用户(玩家)享受玩游戏,而不考虑大量的标注负担(von Ahn Dabbish,2008; Mayer et al .,2014)。严肃游戏在NLP已经成功的任务代表就是图形(Jurgens and Navigli,2014; Kazemzadeh et al.,2014) 或者可以简化为对单个词或一对命题的评估 (Neverilova,2014; Poesio etal .,2013)。更复杂的任务,如论元理解、推理或组合构成了几个设计挑战,它们围绕着关键问题:首先如何使数据创建和标注工作变得有趣和令人愉快。

应对这种开放式的研究挑战,我们创建了Argotario一一款在线严肃游戏用于获取与谬误辩论数据集。本文的主要研究贡献和Argotario特点包括:

错误识别任务的游戏化,包括玩家与玩家的互动

通过游戏和教育方面的学习

完整的游戏数据创建和标注,所有数据都是开放的

自动黄金标签和基于人群的质量评估

多语言、平台独立、开源、模块化,在智能手机上具有原生外观。

2背景和相关工作

在过去的几十年里,谬论一直是辩论法研究的一个活跃的话题。然而,在20世纪亚里士多德的遗产仍然值得注意,Hamblin (1970)的新观点表明,谬误作为论元的概念,似乎是有效的但不值得如此被审查(Hamblin (1970)批评广泛存在于当代教科书的谬论标准疗法是“低质量的”,“陈旧的”,“教条主义”和“与现代逻辑没有连接”)。关于谬论的理论演变成各种类别和疗法,从面向实用的教育方法(Tindale, 2007; Schiappa and Nordin, 2013)到非正式逻辑中的修辞(Walton, 1995)或“语用辩证法” (Van Eemeren, Grootendorst, 1987)。关于谬论的历史概述例如可以参考(Hansen, 2015)。

令人惊讶的是,绝大多数当前关于谬误的工作,特别是教科书,只提供一个在现实生活中不太可能遇到的玩具例子(Boudry et al., 2015, p.432)。谬论和可接受推理之间的区别是模糊的,理论没有提供任何实际指导:在现实生活中成熟的谬论比通常的假设(Boudry et al .,2015)更难发现。因为这个理由,对目前好辩话语的谬误分析在范围和规模上都相当有限。Nieminen和Mustonen(2014)检查了在支持神创论的文章中发现的谬误。在2003年入侵伊拉克之前,Sahlane(2012)在美国的主要新闻报纸上分析了新闻社论的谬误。这两个工作依赖于有几种谬论类型的列表,比如人身攻击谬论、诉诸群情的谬论、诉诸于内疚、滑坡谬论、轻率归纳,以及其他的一些谬论。

当扩大标注和资源收购时,严肃游戏可以替代付费的众包。最近成功的应用包括知识库扩展(Vannella et al., 2014),回答与医学主题相关的测验(Ipeirotis Gabrilovich, 2014),字定义收购(Parasca et al., 2016),或词意义的标签(Venhuizenet al., 2013);后者类似于标准的有奖金回报的标注任务,而不是传统的娱乐游戏。Niculae和danescu-niculescul- mizil(2016)建立了一个游戏,在给定谷歌街景图片中猜地名,为调查建设性讨论而收集数据。用于NLP的严肃游戏一个重要方面是对用户的利益,而不是快速完成注释:在Duolingo(尽管Duolingo本身作为一个学习工具,它的激励和竞争特性使它感觉像在一个游戏中完成任务) 学习一门语言,比在感染中比杀死僵尸(尽管其明显的有趣因素)更有价值(Vannella et al., 2014)。

3 Argotario概述

架构和实现 Argotario是一个客户机-服务器,基于web的应用程序,它可以在所有现代浏览器中运行,并无缝地在智能手机上工作,提供了一个真正的界面外观。它的三层架构包括后端MongoDB数据库、Apache2SSL代理背后的Python服务器,以及构建在Ionic框架之上的Java客户端。Argotario是模块化的,因为它允许开发人员以独立模块添加新内容(世界、级别、回合)。游戏工作流是使用JSON文件进行配置的,因此可以对新游戏场景进行定制。安全性由SSL证书和哈希所有密码来确保。本地化利用ng-translate的内置功能,使所有文本外部存储在一个JSON文件,在用户界面上手动添加另一种语言只需要翻译这些文本(尽管Duolingo本身作为一个学习工具,但它的激励和竞争特性使它感觉像在游戏中完成任务)。目前,Argotario有英语和德语两种语言。

游戏设计 首先介绍抽象体系结构,具体的例子遵循第4节。根据Salen和Zimmerman的说法(2004年,第50页),游戏是一个由不同类型的交互实体组成的系统,它们具有一定的属性。Argotario遵循这个结构,由世界、水平和游戏回合(Hannemann,2015)的层次。

游戏回合是一种原子迷你游戏,玩家在游戏中采取行动,并得到点数奖励。从概念上讲,每个游戏回合都遵循相同的过程:用户首先面对的是游戏数据,他们需要与游戏数据进行交互。他们的响应(一种选择或自由文本输入)通过当前的游戏回合配置进行验证,类似于web页面上的表单验证。如果游戏判断响应数据的正确性,它会给用户提供一定数量的分数。

一系列的游戏回合形成了一个等级。要完成一个级别,必须完成所有的游戏回合,这个独立于用户是否成功的完成了各自的任务。虽然游戏回合可以在不同的层次上被重新使用,但每一层都是独一无二的,可以单独设计来满足某种特定的目的(例如只有一些类型的谬论被处理)。

最后,所有级别都驻留在一个包含所有级别的包装器中,看起来像一个藏宝地图(见图1a)。他们的外观可以自由定制,以视觉吸引并捕捉特定的氛围或主题。游戏中有多个相邻世界。

图1:在智能手机模拟器上运行的Argotrio截屏

用户被描绘成小的圆形滑稽面孔(头像)。第一个用户的目标是在所有的世界中完成所有的级别。最初,游戏世界被雾所覆盖,用户可以通过完成级别来清除。排名(得分)是第二个重要的比赛目标。重复的级别允许用户收集更多的点,从而提高他们的全球排名。

4 游戏化谬论识别

Argotario的主要原则可以概括如下。首先,因为一个谬误论元是一个“似乎是有效的,但实际上不是这样的”(Hamblin,1970),用户必须通过写一个给定类型的谬误论元,而不被发现这实际上是一个谬论,去试图“愚弄”其他用户。通过写一个谬误论元以“伪装”为一个有效论元,用户会对谬误辩论很敏感(如修辞策略、语言工具、逻辑等)。其次,用户可以通过揭示已有论元的谬误——无论是揭示正确的谬论类型,或者声明给定的论元不是谬误——得到关于他们的“揭穿”技能的反馈(参见图1b),从而认识到现有争论中的谬误。(所有书面文本和用户输入都被CC-BY许可)。

在识别正确的谬论类型的von Ahn和Dabbish(2008,第61页)系列游戏术语结合反演问题的游戏(猜测者产生最初用于描述者的输入”)和输出论元游戏的修改(猜测者必须产生与人群相同的输出,细节将在第4节稍后讨论)。

谬论类型 我们收集了适合我们游戏场景的谬论类型的详细清单。考虑到谬误类型的广度和多样性(Tindale, 2007;Govier, 2010),我们进行了几项试点研究,以确定以下类型:(1)在日常争论话语中常见的类型,(2)区分开来两者,(3)有增加的困难。Argotario的谬误类型库存目前包含了人身攻击,诉诸情感、转移注意力、轻率泛化、无关权威,以及一个非谬误的论元(Pollak,2016)。

当玩家完成每一级游戏时,他们会逐渐认识到不同的谬误类型。在第一个世界中的所有谬误类型被掌握后,玩家可以参与玩家vs玩家的世界。在这里,一场关于给定争议的对话交流,要求用户写一些谬论论元(就像之前的世界一样),并猜测其对手使用了哪种谬论(从而得到正确答案的点数;有关黄金数据估计的细节将在下一节中解释)。这个级别是异步的,当一个用户写了一个新的论元时,他的对手就会得到关于转换的通知,所以他们不需要同时玩(见图1c)。

黄金标签 估计因为所有内容都是由具有不同书写或理解辩论能力的玩家在游戏中创建的,我们首先将数据视为噪声。首先,可以在所有回合中报告垃圾邮件,并提交给管理员采取行动。其次,我们依赖于MACE (Hovy et al .,2013)的黄金标签估计,我们将其无缝集成到后端。例如,如果用户必须编写一个给定的谬误类型的论元,我们只将类型视为单一的“投票”,并要求另外其他层次上的四名参与者猜测这种谬误的正确类型。只有得到至少5张“选票”的论元才会被送入MACE,以建立他们的黄金标签。

通过使用人群投票和垃圾邮件报告,我们间接的目标是高质量的标签。预测黄金标签可以被MACE的一个阈值进一步参数化,然后它只提供对低于阈值的实例的黄金标签估计(Hovy et al .,2013,p . 1125)。然而,对数据质量的深入分析是我们当前的研究议程。

反馈和激励 Argotario提供了两种类型的反馈:软的和硬的反馈。对于那些带有未知标签的标注论元,用户只能得到一个点,而不知道他们的回答是否正确(软反馈)。对于已经估计黄金标签的论元,给出硬反馈(参见图1d):如果用户出错,则不会得到任何奖励。显然,从教育的角度来看,硬反馈会更好,因为人们马上就会知道她的回答是对还是错;然而,用户事先不知道当前评估是否给他们提供了软或硬的反馈,因此他们天生就被鼓励去尝试他们最好的。

我们还建立了一些激励机制来让玩家参与进来。首先,Argotario展示了整个排行榜以及每周的排名,以确保新来者有机会获得成功,详情参见(Ipeirotis和Gabrilovich,2014)。本周玩家将被公开展示并获得小额奖金。第二,据报道,对那些对修辞、辩论或公共审议感兴趣的玩家来说,根据几轮运行的用户反馈,对熟悉的话题进行驳斥是很有趣的。

5 确定基准Benchmarking

到目前为止,我们在几个用户研究和beta测试会话中测试了Argotario。Argotario早期版本的第一个研究考察了硬反馈的影响,但缺乏对游戏中整体用户参与的影响。我们发现具有相同的游戏配置,但只有软性或硬反馈时,软反馈对用户体验没有显著的负面影响(两个用户组(分别为20和17个参与者;最终的李克特量表问卷;曼恩-惠特尼-非参数检验)。(汉曼,2015)。

在随后的一项研究中,我们用亚马逊土耳其机器人(AMT)对玩家vs玩家的等级进行了基准测试。我们要求工人们玩一个特别配置的Argotario版本,以“赢得”20个点用于提交HIT。玩家vs玩家回合需要两个用户的两个对话,因此两个或更多的人在更长一段时间内积极参与,在这项研究中我们还实现了一个朴素机器人(我们在现有数据库中的论元上使用卷积神经网络基于GloVe嵌入训练了一个谬误分类器系统(彭宁顿et al .,2014)和Keras框架,所以机器人试图在玩家vs玩家讨论中识别对手论元的谬论;为了生成一个答案,它只是在给定的主题上查找一个现有的谬误。一方面,它违背了话语的流动,因为它显然没有连贯地回应它的对手。另一方面,它允许我们去部署游戏作为AMT上的一个HIT,并在短时间内获得足够数量的玩家vs机器人的游戏)。与此同时,我们在社交媒体上推广游戏,吸引了一些非付费用户。使用这个过程,我们可以让更多的人快速测试整个游戏机制,识别潜在的缺点,并收集大约1,160个手写的谬论论元。我们也尝试了关于平均游戏时间的每个HIT的不同价格(1~2美元)。而拒绝的低质量HITs对所有配置仍然是微不足道的,我们没有观察到HIT价格和游戏时间(≈18-26 min)之间任何相关性。我们的解释是,用于基准研究的HIT价格应该是公平的,并反映研究时间,但不影响质量(Pollak,2016)。

6 结论和展望

Argotario是一款有多种用途的严肃游戏。首先,它是计算语言学研究的一个软件工具,它关注的是争论话语中的谬误,是计算论辩定性标准的重要组成部分。其次,它是支持学习和教育的软件。它的主要教育目的是提高认识——不仅是存在的谬论,还包括在日常辩论中很容易被忽视和误用的谬论。最后,Argotario也是一个数据获取和标注工具,用它可以对源自众包方法的数据成功进行质量评估。与通常的标注工具不同,所有内容都是由游戏中的用户创建。

从长远来看,与标准众包相比,我们认为Argotario提供了一种可行的数据获取方法。首先,正如Eickhoff等人(2012)所示,纯粹的货币驱动的视角并不总是决定额外水平的决定性因素。其次,来自人群的“专家”可能有助于参与(Ipeirotis和Gabrilovich,2014)。

在目前的版本中,Argotario仍然是一个概念的证明。它的功能需要大规模地验证,以揭示游戏中对动态整体用户体验和质量影响的模式;这些在小规模基准测试(第5节)中不容易实现。在这方面,任何手动干预(如垃圾邮件删除)都需要自动化。

Argotario可以在www.argotario.net上访问,同时可以在任何现代网络浏览器上使用教程视频和运行,最好是在智能手机上。它也是开源的,源代码可以在ASL许可下从GitHub上下载使用(https://github.com/UKPLab/argotario)。

论文下载链接:

http://www.aclweb.org/anthology/D/D17/D17-2002.pdf

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
文章导航
推荐内容