一项对近12000篇遗传学论文的计算机分析发现——
人类基因功能研究充斥“令人震惊”的错误
本报记者 张梦然
今日视点
一项对近12000篇人类遗传学论文的计算机辅助分析发现,关于人类基因功能的论文中充斥着“令人震惊”的错误,论文中核苷酸序列错误的比例高得令人难以接受。这对旨在将基础研究转化为患者治疗的基因组学领域来说,意味着一个重大危机,因为这一转化非常依赖对基因功能的可靠描述。
事实上,错误识别的核苷酸序列代表着“双重危害”——不正确的序列本身及其相关结果可能会误导正在进行的实验,以及未来的研究风向。
可能是偶然,也可能是学术欺诈
据英国《自然》网站报道称,这项分析发现,在近12000篇人类遗传学论文中,700多项研究包含的DNA或RNA序列存在错误。研究负责人、澳大利亚悉尼大学癌症专家詹妮弗·布莱恩,自2015年以来一直致力于查找遗传学研究中出现的重大错误。布莱恩认为,这一比例必须引起警惕,因为其表明人类基因组研究中的一部分是不可靠的。
研究人员认为,上述这些错误的出现也许是偶然的,但也有可能其中存在学术欺诈。
布莱恩起初是在5篇研究论文中发现的问题。这些论文涉及一项十分常见的实验——使用一小段DNA使癌细胞中的基因失活,而实验所用的核苷酸序列是错误的。除此之外,这5篇论文还使用了很相似的语言表达和数据。
布莱恩怀疑,它们可能出自一家“论文工厂”,即由第三方公司根据“订单”交付的论文。
目前,这5篇论文中的4篇已经被撤回。但布莱恩的目光,开始注意到其他存在类似错误的论文。
错误比例高得令人无法接受
2017年,布莱恩与法国格勒诺布尔大学计算机科学家合作,创建了名为“SeekBlastn”的软件,其能够识别并标记出研究中潜在的错误。
譬如说,该软件可以从论文中提取短核苷酸序列,并将其与开放核苷酸数据库“Blastn”中的数据进行比较,以检查它们是否与研究预期的人类基因组相匹配。而下一步研究人员会手动检查每个被标记出的不匹配的地方。
研究团队利用该软件,对此前发表过有问题论文的《基因》和《肿瘤学报告》期刊上的相关论文进行了筛选,包括2007年至2018年发表于《基因》的7400篇原始论文,以及2014年至2018年发表于《肿瘤学报告》的3800篇开放获取论文。
经过人工筛查,研究人员发现《肿瘤学报告》论文中约有12%的核苷酸序列存在问题;《基因》论文中存在上述问题的有2%。
此外,布莱恩与研究团队还对此前出现过问题的癌症遗传学亚领域的研究论文进行了筛查,结果发现,在约600篇相关论文中,超过25%的论文核苷酸序列存在错误。
研究人员表示,此次发现的核苷酸序列存在错误的论文比例高得令人无法接受,总共有712篇论文(约占筛选总数的6%)核苷酸序列存在错误。这些研究已发表在78种期刊上,总引用次数超过17000次。
会不会只是冰山一角?
核苷酸序列,就是指DNA或RNA中碱基的排列顺序,是一系列分子遗传学技术的基础。这些技术已在数十万份研究出版物中得到应用。
但此次根据研究人员估计,大约四分之一的问题论文可能会误导或分散未来对人类疾病治疗的发展,因此,研究人员呼吁需立即采取紧急措施,解决文献中不可靠的基因功能论文的问题。
团队已经给所有能够找到编辑联系方式的相关期刊或出版商发送了电子邮件,其中一些回复说,将对这些存在问题的论文进行调查。
但与此同时,研究人员也希望这一研究能激励其他研究人员和期刊寻找更多有问题的人类基因功能论文,因为他们还有更大的担心——这一次发现的错误论文,只是问题的冰山一角。