秒速赛车开奖:别再抄袭论文图片了机器学习算

来源:未知作者:admin 日期:2018/07/14 13:48 浏览:

  原标题:别再抄袭论文图片了,机器学习算法能自动检测出来 雷锋网 AI 科技评论按:近期来自纽约雪城大

  雷锋网 AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在bioRxiv 上发表了一篇文章,作者在文章提出了一种机器学习算法,该算法能够自动进行论文图片查重,其目的旨在解决文献查重中的一个死角——图片查重。

  目前许多期刊都会对一些图片进行查重,但只有极少数的期刊有自动化的查重流程。例如《Nature》期刊对收到的稿件一般会进行随机抽样检测,《Journal of Cell Biology》以及《The EMBO Journal》等期刊则对稿件中的大部分图片进行手工查重。显然手工查重费时费力,这也是为什么到目前为止大部分期刊都没有图片查重这一项。

  然而这并不意味着图片查重不重要;如果能够及时发现不当的图片抄袭(重用),那么可能会制止许多学术不端行为。

  以 2014 年轰动学术圈的小保方晴子(Haruko Obokata)学术造假丑闻为例,当时小保方团队同一天在《Nature》上发表了两篇文章,文章称他们从新生小鼠身上分离的细胞通过 STAP 方法能够获得胚胎干细胞。

  据后来人们的调查发现,在文章中竟赫然有两张图片使用了她在博士学位论文中的图片,而这些图片当时是用于表示细胞原本就处于胚胎状态的,而非 STAP 之后变为胚胎状态。在这个事件中,如果《Nature》期刊能够在发表之前检测出文章中的图片重用,那么这个让整个学术圈震惊的造假丑闻也许就能扼杀于摇篮之中了。

  再说一下美国研究诚信办公室(US Office of Research Integrity, ORI)。ORI 有多种工具来协助工作人员进行图片查重,但每年他们也只报告了大约 10 例的学术不端行为;为了这少数的几例报告,不知道他们要查阅多少案例/文件以及对比多少图片。不过需要说明的是,ORI 并不会去主动审查学术不端(成本有点高),除非有匿名检举。

  Daniel Acuna 等人发表在 bioRxiv 上的这篇预印文章或许为此提供了一线希望。

  总的来说,作者首先分析了 PubMed Open Access Subset(PMOS)数据集(2015)中包含的 200 多万张图片,通过他们开发的自动查重管道能够自动检测出由相同的第一(最末)作者发布的多组论文的图片重用。之所以做出「相同的第一(最末)作者」的限定,是为了降低模型的时间复杂度。由于缺乏相应的测试数据集,作者就制定一个标准,然后让一群人类审阅者手工来检查这些检测到的图片是否真的有重用,以此来评价自动查重管道的有效性。

  作者分析了 PMOS(2015)上来自 4324 个期刊的 760036 篇论文,其中有 2,628,959 张图片。当然并不是所有的图片都会被用到,例如有些是和公式相关;将这些图片从中清除掉。平均来说大约每篇论文包含 4.78 张图片。

  作者在这里使用了和 V. Christlein et al.(2012) 相同的算法:基于关键点的检测方法。这有以下几个流程:

  (Fig B)找到欧氏空间中图片上的所有关键点中两两邻近的点,这些关键点对的间距要小于等于第二近邻距离的 60%。将其他没有匹配或匹配程度小于 40 个像素的关键点移除。

  (Fig C)对关键点进行平面聚类,移除聚类面积小于 40x40 平方像素的集群。如果再一个集群中,有超过三个关键点与同一个集群相匹配,那么就将这两个集群定义为匹配集群。

  如我们前面所说,考虑到在数百万张图片上进行最近邻搜索的时间复杂度,作者在这里只分析了第一(最末)作者的数据。雷锋网认为,如果想要将这种算法应用到实际应用。