edcyang

科研自动化?!假论文能否杜绝?答案在四百年前就有了

一个为追求真理而研读科学著述的人,他的义务就是与自己读到的所有东西为敌……并从各个方面加以质疑。他还应该在批判审查这些东西时,对自己持怀疑态度,这样,他才有可能避免落入偏见或宽容的陷阱。

——伊本·艾尔-海什木(Ibn al-Haytham,公元965-1040年)

科学正陷于一场数据危机之中。

去年,单是生物医学领域发表的新论文就超过了120万篇,这使得同行评审的生物医学论文总数突破了2,600万篇。然而,科学家每年平均只能阅读大约250篇论文。与此同时,科学文献的质量一直在下降。一些最新的研究发现,绝大多数生物医学论文都具有不可重复性。

论文数量太多而质量太差,这种双重挑战的根源在于,人脑的神经能力是有限的。随着人类积累的知识不断增多,科学家借以推导假说的知识在总体知识中所占的比例越来越小。

其结果是,他们提出错误问题的频率越来越高,或者,他们越来越多地发现,自己提出的问题已经被解答过了。而且,人类的创造力似乎越来越依赖于过往经历的随机性——也就是特殊的生活事件让研究人员注意到了被其他人忽视的东西。虽然运气一直是科学发现中的一个因素,但它目前起到的作用已经远远超出了应有的水平。

要解决当前的危机,一种很有前景的策略是,把机器和人工智能整合到科研过程中。与人脑相比,机器的记忆力和计算力更强。如果科研过程能够实现自动化,我们获得科学发现的速度也许会大为提高。它甚至可能开启另一场科学革命。而这个意义重大的可能性能否实现,则要取决于一个同样重要的问题:科学发现真的能实现自动化吗?

我认为是可以的,只需一种我们已经熟知了数百年的方法。这个问题的答案可以在弗朗西斯·培根的著作中找到,这位17世纪的英国哲学家,同时也是现代科学的重要始祖。

培根.jpg

弗朗西斯·培根认为,科学发现的过程本质上是算法式的。

人类首次对科学方法做出论述,可以追溯到好几百年前的穆斯林思想家,比如伊本·艾尔-海什木,他同时强调了经验论和实验法的重要性。不过,培根才是第一位正式确立科学方法,并使其成为一个研究课题的人。

在1620年出版的著作《新工具》中,培根提出了一种用于科学发现的模型,它的另一个名字你或许更加熟悉:培根归纳法。培根反对把三段论逻辑用于科学的演绎推理,他认为这种逻辑是不可靠的。他提出了另一种方法,主张系统地收集某种特定现象的相关观察结果,列成表格,并利用归纳逻辑进行客观分析,以此得出可推而广之的概念。在他看来,只有脱离了不完整的(因此是错误的)公理的束缚,才有可能发现真理。

培根归纳法试图消除观察和概念化过程中的逻辑偏差,办法就是通过划定演绎推理的每一个步骤,并对每一步分别进行优化。培根的想法是,利用观察者组成的社群收集关于自然的巨量信息,然后整理成可用归纳逻辑进行分析的集中式记录。他在《新工具》中写道:“经验主义者就像蚂蚁,它们只会积累和使用;理性主义者如同蜘蛛,它们只凭自己的材料织网。蜜蜂的方法是最好的,它们走的是一条中间道路,采集现有的材料并加以利用。”

培根归纳法如今已经很少被用到。事实证明,这种方法太费力,而且成本过高;其技术应用不甚明朗。不过当时,一种科学方法的正式确立已然标志着革命性的进步。在那之前,科学是形而上学的,是属于少数学者的特权,他们大多出身贵族。而通过挑战古希腊先哲的权威并划定科学发现的步骤,培根创造了一幅蓝图,凭借这幅蓝图,任何人都有机会成为科学家,无论其出身背景如何。

培根还揭示了一个被隐藏的重要事实:科学发现的过程本质上是算法式的。它是有限数量的步骤经过重复,直至得出有意义结果的过程。培根在描述自己的方法时,明确使用了“机器”一词。他的科学算法包括三个主要步骤:

第一步,收集关于现象的观察结果,并整合成一个知识总库;

第二步,利用新的观察结果,提出新的假设;

第三步,通过精心设计的实验来验证假设。

而如果科学是算法式的,那它必定具有实现自动化的可能性。过去数十年中,信息和计算机科学家一直不曾涉足这个充满未来主义的梦幻,这主要是因为,科学发现的三个主要步骤位于不同的层面。

观察是感知性的,提出假设是思想性的,实验则是机械性的。科研过程的自动化需要将机器有效地整合到每一步中,并保证这三步之间的衔接顺畅无碍。而至今,还没有人知道如何做到这一点。

我们近来的大多数重要进展都是在实验层面取得的。例如,制药业使用自动化的高通量筛选平台进行药物设计,这一做法已成为常态。一些初创公司,比如美国加州的Transcriptic和Emerald Cloud Lab正在开发系统,旨在让生物医学研究人员的几乎所有体力任务都实现自动化。科学家现在可以在线提交实验方案,将其转换成代码,并馈入机器人平台,在那里进行一系列生物实验。这些解决方案对那些需要大量实验的学科最有帮助,比如分子生物学和化学工程学。不过,类似的方法也可以应用到其他数据密集型领域,甚至扩展至理论学科。

相比之下,假设提出层面的自动化水平就没有那么先进了。

不过,唐·斯旺森(Don Swanson)上世纪80年代的一项研究帮助我们向前迈出了重要一步。他证明了,在科学文献中,不相关的想法之间存在着隐藏的联系;利用一种简单的演绎逻辑框架,他可以把来自不同领域、引用上毫无重叠的论文联系在一起。通过这种方式,斯旺森得以对食用鱼油与雷诺氏病之间的联系提出新的假设,而不用开展任何实验,也无需熟知任一领域。

近年来出现的其他方法则依赖于数学建模和图形理论。研究人员把大型数据集整合在一起,知识在其中被投射成网络,网络的节点就是概念,而网络的连线则代表了概念之间的联系。通过发掘节点之间未被发现的连线,我们就能得到新的假设。

在科研过程自动化的问题上,最具挑战性的一步是,如何大规模收集可靠的科学观察结果。

在观察层面上,目前还没有一个集中式的数据库将人类所有的科学知识囊括在内。自然语言处理已经发展到不仅可以自动从科学论文中提取联系,而且还能理解上下文关系。然而,主要的学术出版商都对这样的文本挖掘做出了严格限制。更重要的是,论文的文本可能因为科学家的解读(或误读)而发生偏差,并且可能包含难以提取和量化的复杂概念和方法论。

尽管如此,计算技术和网络数据库的最新进展使得培根归纳法有史以来第一次变得切实可行。即便在科学发现能够实现自动化之前,在当下,纯粹还原论接近其效用边际之时,推行培根归纳法也是有价值的。

在大数据时代,人脑已无法足够有效地重构高度复杂的自然现象。一种现代化的培根归纳法可以改变我们对世界的理解。它通过数据挖掘来整合还原论思想,然后通过归纳式计算模型对这些信息进行分析。凭借此种方法,我们可以提出更有可能得到证实的新假设,同时也使验证过程更加便捷,从而填补人类知识的空白。此外,它还起到了一种警示作用,这正是当今科学界迫切需要的,它提醒着我们勿忘科学的真谛:追寻真理,挑战权威,崇尚自由。

本文作者是哈佛医学院分子癌症生物学家。他的研究工作聚焦于开发分析平台,以提升生物医学的研究效率。

本站文章如需转载,请注明文章出处:https://www.hachina.io/68.html
本站保留文章版权以及相关权益。