无锡证券

我的账户
济南期货配资 网

自媒体期货配资 干货

亲爱的游客,欢迎!

已有账号,请

立即登录

如尚未注册?

加入我们
  • 客服电话
    点击配资开户 客服

    在线时间:8:00-16:00

    客服电话

    无锡证券400-000-0000

    电子邮件

    xjubao@163.com
  • APP下载

    无锡证券济南期货配资 网APP

    随时随地掌握行业动态

  • 官方微信

    扫描二维码

    关注济南期货配资 网公众号

济南期货配资 网 网站股票配资 期货配资 列表 期货配资 内容

NLP 圈偕行评议对资源论文的一些误解

2020-07-11 发布于 济南期货配资 网
 

无锡证券原标题:NLP 圈偕行评议对资源论文的一些误解

配资公司 资源论文的伤害偏见

无锡证券NLP 中的大多数乐成案例都是配资公司 监视学习或半监视学习的。从根本上说,这意味着我们的解析器、情感分类器、QA 体系和其他统统都和训练数据一样好。基于这一事实,数据和模子工程,对于 NLP 进一步的发展来说同样紧张。这就是为什么顶级集会 ACL 通常还专设了一个「资源和评估」通道,并发表最佳资源论文奖。

无锡证券然而,创建模子和资源这两项使命所需要的技能集并不相同,每每也来自差别的领域,这两个领域的研究者每每也对「论文应该是怎样的」抱有差别的期望。这就使得审稿人的事情进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的缘故原由可能并非论文现实存在任何缺陷,而是它的基本要领论「不合适」。

无锡证券对于这一点比力扫兴的作者们在线上或线下睁开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就「论文应该是怎么样的」告竣一致,那么提交论文就是浪费相互的时间。我希望本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。

让我们从消除一些配资公司 资源论文的误区开始。不幸的是,下面全部引用都来自 ACL 审稿人对论文的真实评论!

误区 1:资源论文不是科学

也许这一观点最有代表性的例子来自于 Rachel Bawden。ACL 2019 年的一位审稿人对他这篇以呆板翻译为前言的双语对话资源论文提出了以下意见:

本文主要是对语料库及其集合的描述,险些不包罗科学上的孝敬。

无锡证券鉴于 ACL 2019 有一个专门的「资源和评估」领域,因此,这种观点的提出看起来甚至是不可能的,而出现在评论中更是不可接受!需要明确的是,资源建设至少以三种方式增长了知识:

无锡证券它们是从建模中得到任何知识的先决条件;

除资源外,可能另有注释准则或新的数据网络要领;

基于注释的迭代准则开发增长了对长尾征象的相识。

无锡证券论文链接:http://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla

误区 2:资源论文更适合 LREC 或研讨会

无锡证券大多数 ACL 集会都提供一个专门的「资源和评估」通道,但是资源论文的作者通常被发起将他们的事情提交给语言资源和人类语言技能评测方面的国际顶级集会 LREC 或一些专题研讨会。我们再次借用下 Rachel Bawden 在 ACL 2019 中论文评论内里的一句话:

无锡证券我认为这篇文章不适合 ACL。它非常适合 LREC 和特定的呆板翻译集会和研讨会。

人们普遍认为 NLP 体系工程相干的事情比资源相干的事情更有声望,而这一观点可能正是与此有关。由于 ACL 是顶级集会,因此,资源论文应该被提交给研讨会和级别较低的 LREC 集会。

无锡证券这种观点非常不公平,甚至会拔苗助长。起首,NLP 工程论文每年通常都有好频频时机提交给 NLP 领域的主流顶级集会。而 LREC 是唯逐一个专门讨论资源的集会,每两年才举办一次。

其次,NLP 的进展取决于体系和基准的配合演进。NLP 基准并不完善,当我们在其中任何一个基准上停留太久时,我们很可能会开始针对错误的事情举行优化,发表许多 SOTA 论文,但却并没有取得真正的进展。因此,开发更具挑战性的基准与建模事情同等紧张。我们至少可以做到的是,在顶级集会上发表此类文章来推动这件事。别的,将数据和模子各自置于差别的集会,不太可能改善这两个社区之间的思想交流。

误区 3:新资源必须大于竞争

针对这一点,我自己在 ACL 2020 上收到了以下评论:

无锡证券本文提出的新语料库并不比现有语料库大。

无锡证券针对资源论文的这一评论,实在就相当于在评审体系论文以「如果不是 SOTA,则拒绝」来判定一篇论文的生死。测试性能提供了一种简朴的启发式要领来判断新模子的潜在影响,与此同时数据集巨细成为实在用性优劣的指标。在这两种情况下,来自工业界和资金雄厚的实验室的论文都有上风。

无锡证券由于数据量每每与数据质量成反比,因此这种态度隐晦地勉励众包并拦阻专家注释。上述提到的向 ACL 2020 提交的论文提供了一个具有专家语言注释的资源,其中存在着更大、噪声更多的众包替换方案。这篇论文特别讨论了为什么直接比力这些资源的巨细是没有意义的。不外,其中一位评审人认为,新的语料库比众包语料库要小,这显然降低了它的价值。

误区 4:资源必须是英语或跨语言较大的

无锡证券语言的数目似乎与数据集的巨细具有大抵相同的功效:一种判断其潜在影响的启发式要领。以下是 Robert Munro 从另一篇 ACL 论文评论中引用的一段话:

总的来说,没有好的迹象表明其他语言对能取得好的结果。

无锡证券这是一个绝对有用的评论,它适用于大多数只存眷英语却探讨建模「语言」(#BenderRule) 的 NLP 论文。因此,如果这一观点被认可,那么每一篇论文都要求必须是跨语言的研究。然而这一观点,每每是由非英语资源论文的评审人提出的。

其结果是,这种事情正在被边沿化,并受到了拦阻。我有幸到场了 ESSLLI 2019,并与一些精彩的拉脱维亚文研究职员举行了交流,他们研究针对自己的语言的 NLP 体系。他们告诉我,他们放弃了主要的 ACL 集会,由于他们的事情范围太过狭窄,大多数人没有兴趣。这对每小我私人来说都是一个丧失:要把对英语有用的想法转移到其他语言上绝非易事,这些拉脱维亚文研究职员想出的诀窍可能在全球范围内都有很大的用处。别的,如果我们在 NLP 社区的目标是建立「人类语言」的模子,我们不太可能只存眷其中一种语言就得到乐成。

无锡证券将语言数目与论文的潜在影响等量齐观,会给跨语言研究带来一个有趣的结果:他们拥有的语言越多,在审稿人眼中就越好。

无锡证券然而,如果在全部这些语言中执行任何有意义的分析,那么语言数目通常会随着作者列表长度的增长而增长:比方有一篇配资公司 通用依赖性的论文就有 85 位作者(论文地址:http://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),该论文涉及的语言数目就比力多。

一个平凡的呆板学习实验室没有措施做如许的事情,以是为了媚谄审稿人,他们使用了呆板翻译来扩增语言数目,甚至在类型声明中也使用了呆板翻译(以「BERT Is Not an Interlingua and the Bias of Tokenization」论文为例:http://doi.org/10.18653/v1/D19-6106 )。在这种情况下,语言数目并不能完全代表论文的整体质量。

误区 5:已有数据集太多了

针对这一观点,以下是 EMNLP 2019 论文评论中的一个例子:

本文提出了另一种问答测试。

为了包管公平性,这位审稿人随后提到,如果一个新的基准提供了一些全新的要领,它可能会拥有一席之地。不外,其隐含的假设是,资源论文应该有一个上限,有大量的问答数据几多会拔苗助长。

有一种观点认为,有太多基准会稀释社区的积极。然而,只有当有一个基准本质上比全部其他基准都好时,这一点才会建立。如果不是如许,只存眷一个数据集可能会拔苗助长。有了大量的数据集,我们至少可以举行更好的泛化研究。比方,在 SQuAD、CoQA 和 QuAC 上训练的模子不会相互转移,纵然这三个数据集都基于 Wikipedia(论文地址:http://arxiv.org/pdf/1809.10735.pdf)。

无锡证券有趣的是,对于体系论文也可以提出同样的观点:在下一次突破之前,社区应该对 BERT 举行几多增量修改是否应该有一个上限?(相干论文地址:http://arxiv.org/pdf/2002.12327.pdf)

误区 6:每一篇 ACL 资源论文都必须随附 DL 实验

以上全部的谬论都很容易被驳倒,由于它们反应了逻辑上的谬误和一种研究倾向——不喜爱与主流 NLP 体系论文不一样。但其中有一个似乎与社区真正的分歧相对应:

继续举行 #NLProc 偕行评审辩说!

无锡证券到目前为止,最棘手的问题是:ACL 是否应该要求资源论文举行一些观点验证的应用?

无锡证券支持方:没有 ML 实验=>就投稿到 LREC

无锡证券阻挡方:超新的要领论/高影响力的数据就足矣

你的观点是什么?

无锡证券看过几十条评论,显而易见人们在听到「资源论文」时,很明显会有差别的想法。是否需要举行 DL 实验,甚至是否合适,都取决于孝敬的类型。

NLP 使命/基准:主要观点通常是,新基准比从前的基准更具挑战性。这一说法显然必须得到实验结果的支持。

无锡证券计算语言资源(词汇、辞书、语法):其价值在于从某些角度提供尽可能完备的详细语言描述。类似 VerbNet 如许的语言资源,并不是为任何特定的 DL 应用程序创建的,因此不应该要求包罗任何如许的实验。

介于这两个极度之间的,是可以很容易地构建为 DL 使命/基准的资源类型,但还不清晰它们是否应该是必须的,甚至是最好的选择。详细而言,这涉及:

无锡证券非公然数据的公布:从前非公然的数据资源,如匿名医疗数据或来自私人公司的数据。作者的孝敬是使公布成为可能的法律或行政事情。

具有语言注释的资源(树库,共指,照应,时态关系等):这些资源的质量传统上是由注释之间的一致性来权衡的。作者的孝敬是注释事情或注释要领。

在这两种情况下,数据可能以多种差别的方式使用。可以只提供尺度的训练/测试拆分,并将资源作为新使命或基准来出现,从而使某些实践者的生活变得更轻松——这些实践者只想探求新使命来设置自己喜爱的算法。但这可能不是唯一用来思索新数据的要领,甚至不是最好的要领。这时,这场讨论演酿成了一场不科学的拔河角逐,大抵是如许的:

无锡证券工程师:这个数据是给我的吗?如果是,我想看看相干实验,证实这是可以学习的。

无锡证券语言学家:这现实上是配资公司 语言而不是深度学习的数据。但如果你乐意,接待使用这些数据。

在这一灰色地带,我恳请领域主席定好他们的期望,并向作者和审稿人明确说明这一点。否则我们会陷入一个雷区:一些审稿人认为基线实验是一项硬性要求,但作者没有预料到这一点。否则作者们提交的论文对作者自己以及审稿审得疲劳不堪的审稿人和领域主席来说都是浪费时间。而他们明确说明这一点,则可以很容易地防止这种浪费。

就我小我私人而言,我阻挡将基线实验作为硬性要求,来由如下:

无锡证券NLP 是一个跨学科的项目,我们需要尽可能得到来自各个学科的全部帮助。要求每一次提交都要用呆板学习要领打包,这不仅会拦阻拥有差别技能的研究者的数据和想法之间流动,还会影响语言学、社会学和生理学等领域之间的数据和思想流动。

包罗如许的实验可能不会媚谄任何一方。如果作者不是必须在论文中包罗基线的话,会给语言学家们留下一些本可以解决的问题。工程师们会变得只存眷基线部门,然而终极发明基线部门并没有那么引人存眷。

以我的一篇论文作为详细案例,这篇论文提出了一个新的情感标注方案,一个新的数据集,并展示了一些基线实验(论文地址:http://www.aclweb.org/anthology/C18-1064.pdf)。审稿人指出的一个不足之处是:

使用域内单词嵌入得到的结果屡见不鲜。一个众所周知的事实是,域内单词嵌入相对于一般单词嵌入更具信息性。

我们对域内嵌入的评论只是简朴地描述告终果表,并无意作为启示。这篇论文的孝敬在于资源和要领,但在文中出现的这些实验显然引发了审稿人的错误预期。虽然终极我们的论文被吸收了,但其他许多人可能掉进了这个陷阱。

如何给论文写出好的评论

我适合当这篇论文的审稿人吗?

无锡证券苹果是苹果,橘子是橘子,两者都有自己的优点。由于资源论文不是体系论文而拒绝它,是没有意义的。要写一篇建设性的评论,起首,你需要从与作者同样的要领论角度来看待它的孝敬。如果有不匹配的地方,也就是说,如果你被分配去审一篇孝敬类型不在你的研究范围内的论文,最好让领域主席重新分配。

无锡证券以下是资源论文的一些主要类型,以及撰写高质量评论所需的专业知识:

众包NLP训练/测试数据集:基础众包要领论的知识、对潜在问题(如非自然信号)的熟悉(论文地址:http://arxiv.org/pdf/1803.02324.pdf )和注释者偏差(论文地址:http://arxiv.org/abs/1908.07898 ),以及此使命的其他可用数据集。理想情况下,你至少自己构建了一个此类资源。

无锡证券带语言注释的语料库(语法、复指、共指、时态关系):有关语言理论和注释经验的知识,注释可靠性预计,以及这一特定子领域的现有资源。理想情况下,你至少自己构建了一个此类资源。

语言知识资源(语法、辞书、词汇数据库):语言理论的其他知识和全部其他相干资源。理想情况下,你至少自己构建了一个此类资源。

那么,非英语资源呢?我们不能指望总是有如许一批审稿人,他们都是该领域的专家,而且都会说一种特定的稀有语言,以是答案很可能是「分工」。当我们以审稿人的身份注册集会时,除了专业领域外,我们还可以指定语言。如果一篇资源(或体系)论文不是用英语撰写的,那么除了目标领域的两位专家外,领域主席最好能找到至少一位会说这种语言的审稿人。不懂这门语言的人仍然可以评估能判断部门的孝敬(要领、分析、与其他事情的有意义的比力)。只要领域主席在你的评论中清晰地知道论文的哪些部门超出了你的范围,都将可以或许做出明智的决定,并在须要时招募分外的审稿人。固然,作者应该通过添加注释来帮助应对这一问题。

在 ACL 中,什么样的资源论文才是有价值的?

一旦你确定你看待这篇论文的角度与作者的要领论一致,你就需要判断它的现实孝敬。固然,并不是全部的资源论文都值得发表在一个顶级的 NLP 集会上!对于体系和资源论文来说,吸收尺度并没有太大的差别。大多数集会都对这种要领的新颖性、孝敬巨细、潜在影响的巨细感兴趣。在 ACL 中具有价值的论文,无论是任何一种类型,论文作者都需要对其中的至少一项举行有力的论证。

下面是一些切合(或不切合)这些尺度的资源论文类型的示例。

无锡证券高新颖度:重大观点创新

无锡证券示例:新使命,新注释要领;

无锡证券反例:使用现有框架网络更多数据或更新现有资源,或只是将现有资源转换为其他语言。

高影响力:解决一个普遍存在的问题,提出具有高度归纳综合性的新要领(跨语言或使命)。

无锡证券示例:发明影响多个数据集的偏差,公布时间敏感的数据(比方,有关冠状病毒最新研究数据集);

反例:减小由一个特定命据集中注释器准则引起的特定偏差。

无锡证券高质量、富厚性或范围:紧张的大众数据公布,能在语言描述,数据质量或资源量方面提供明显的上风。

无锡证券示例:语言数据库(如 VerbNet),带有语言注释的语料库,在特定情况下有机网络的数据(如匿名医疗数据);

无锡证券反例:没有明显上风的噪声数据,不公然的数据。

无锡证券重申一下:只要满足其中一个尺度,一篇论文就是值得发表的:一个狭窄的问题可以用一种非常新颖的方式来解决;如果噪声数据集非常完备,那么会产生很大的影响;如果论文表明了为英语版本开发的技能完全无法推广,仅仅简朴地将资源改写为另一种语言也可能会引起巨大惊动。

但作者确实需要证实至少有一个尺度适用性很强,并使审稿人信赖没有严重的缺陷(比方,通过抛弃大部门数据来放大内部注释器的一致性)。雷锋网雷锋网雷锋网(公众号:雷锋网)

相干参考文献详见原文: http://hackingsemantics.xyz/2020/reviewing-data/

雷锋网版权文章,未经授权克制转载。详情见转载须知。

1

鲜花
1

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

无锡证券

济南期货配资 网

扫一扫二维码关注我们Get最新期货配资

相关分类
热点推荐
关注我们
济南期货配资 网与您同行

无锡证券客服电话:400-000-0000

客服邮箱:xjubao@163.com

无锡证券周一至周五 9:00-18:00

无锡证券济南期货配资 网 版权所有

Powered by 济南期货配资 网 X1.0无锡证券@ 2015-2020