www|学术不端又来：国内期刊论文曝抄袭国外旧论文，这次是「英译汉」_video|论文|重点|计算机|部分|

机器之心报道
机器之心编辑部

又双叒叕来了！

近几个月以来，学术圈不端行为屡被爆出，先是港科大硕士 ICCV 论文涉嫌抄袭，后有北理工硕士生「一字不差」抄袭顶会投稿。
更离谱的来了！
近日， B 站一位博主发视频称复旦大学重点实验室疑似抄袭美国教授的论文，并列出了一系列抄袭证据。
涉嫌抄袭的论文是 2017 年发表在期刊《计算机应用与软件》上的《基于正则表达式构建学习的网页信息抽取方法》，两位作者来自复旦大学计算机科学技术学院智能信息处理重点实验室。值得注意的是，这篇论文没有挂导师名字。

论文地址：http://www.shcas.net/jsjyup/pdf/2017/2/%E5%9F%BA%E4%BA%8E%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%9E%84%E5%BB%BA%E5%AD%A6%E4%B9%A0%E7%9A%84%E7%BD%91%E9%A1%B5%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96%E6%96%B9%E6%B3%95.pdf
上述论文疑似抄袭了 2008 年发表的一篇论文《Regular Expression Learning for Information Extraction》，几位作者来自 IBM Almaden 研究中心，并由密歇根大学安娜堡分校电气工程与计算机科学系教授 H. V. Jagadish 提供支持。

论文地址 https://aclanthology.org/D08-1003.pdf
根据爆料博主的说法，「从摘要到正文内容，几乎都是翻译之后再成文的。」
首先，论文摘要（Abstract）和引言（Introduction）部分存在相似的地方，如下为两篇论文的部分摘要截图：

在下图两篇论文的引言部分，可以看到，列举的示例存在高度重合，如邮箱地址、信用卡号码以及基因和蛋白质名称等。

其次，在两篇论文的第二章节《2 The Regex Learning Problem 》和《2 问题描述》，行文的逻辑、涉及的部分定义和公式更能看出抄袭痕迹。如下为部分截图：

此外，两篇论文中各自提出的算法「ReLIE 搜索算法」和「正则表达式构建学习算法」也高度相似：

最后，实验结果也疑似抄袭，下图左为英文原文在 SoftwareName、CourseNumber、 URL 和 PhoneNumber 四个任务上的抽取结果，图右为中文论文在电话号码、课程代码、超链接任务和公司名称任务上的抽取结果，不难看出部分任务上的变化趋势有重合的地方：