机器学习(machine learning)属于人工智能范畴,是指计算机在一组数据上进行训练,然后根据该数据创建规则或知识的能力。化学家们通常对该工具的预测能力感兴趣。例如,机器学习了100种金属合金及其熔点,它能否预测出从未遇到过的合金的熔点,甚至是从未合成过的合金?西北大学的物理化学家乔治·沙茨(George Schatz)说,“如果机器学习没有人们想象的那么有价值,那么人们最终会将时间和精力浪费在实验室的测试上。另一方面,如果机器学习的确是未来的潮流,那么不懂机器学习的化学家可能就会掉队。”
近年来,化学家展示了多种多样的机器学习帮助探索化学空间的方式。例如,麻省理工学院的希瑟·库里克(Heather Kulik)及其同事鉴定了称为自旋交联复合物的无机分子,它们可用作传感器或电子开关(J. Phys. Chem. Lett. 2018,DOI:10.1021 / acs.jpclett.8b00170)。SLAC国家加速器实验室的Apurva梅塔,与合作者一起使用机器学习识别新合金是金属玻璃(Sci. Adv. 2018,DOI:10.1126 / sciadv.aaq1566)。化工公司Symrise与IBM合作使用机器学习寻找新的香水。
加利福尼亚理工学院的Thomas F.Miller和同事展示了机器学习如何用于化学建模,并演示了它如何以高精度和低计算成本预测分子的电子性质(J.Chem.Theory Comput.2018,DOI) :10.1021 / acs.jctc.8b00636)。在相关工作中,佛罗里达大学的Adrian Roitberg展示了一种基于机器学习的工具,该工具可以计算分子力和能量,并以较低的计算成本提供高性能。
合成化学家还对机器学习进行了实验。普林斯顿大学的Abigail G.Doyle与当地和默克公司的同事合作,通过要求他们的算法改变所用试剂来优化胺化反应的产率(Science 2018,DOI:10.1126 / science.aar5169)。蔚山国立科学技术学院和波兰科学院的Bartosz Grzybowski对Chematica软件进行了测试。人类化学家发现,计算机程序设计出了至少与人类开发的产品一样好的产品路线图(Chem 2018,DOI:10.1016 / j.chempr.2018.02.002)。多伦多大学的AlánAspuru-Guzik则是将化学学习应用到能够独立运行实验,然后使用结果改进程序的软件中的化学家之一。
可以说,近年来人工智能在学术圈也是风风火火!但是有人可能就会怀疑:机器学习这么火,是不是在炒作?对此,美国化学媒体C&EN在网上对化学家进行了调查,了解他们对机器学习的看法。45%的受访者认为机器学习就是炒作。化学家对该领域有持有不同的看法。大多数人都认为尽管有些方面的热情过高,但它确实是一个有用的工具。
人工智能用于药物发现
制药公司是最早使用机器学习的部门。他们拥有大量有关小分子和生物学靶点的数据,可以用来训练算法。机器学习为药物化学家提供与组合化学或高通量筛选相同的、有望加快和改善药物发现帮助。
人工神经网络(ANN)算法在药物设计中使用了已有近半个世纪之久。1973年,苏联研究人员证明了人工神经网络能预测取代的1,3-二恶烷的生物活性(Comput. Biomed. Res. 1973, DOI: 10.1016/0010-4809(73)90074-8))。从1990年代开始,药物化学家在定量构效关系(QSAR)模型中使用了人工神经网络。QSAR模型根据其他分子的已知特性对分子的特性进行预测,以帮助确定它是否值得作为一种可能的药物进行研究。随机森林算法和支持向量机也是机器学习的类型,现在已经在QSAR建模中大大取代了人工神经网络。
默沙东公司(Merck&Co.)计算化学家Robert P. Sheridan说,“从这个角度讲,机器学习没有被夸大。在QSAR的意义上讲,化学中的机器学习已经使用了数十年,并且证明是有用的。” QSAR模型并不完美,但是像默克这样的公司仍在继续使用它们,因为它们可以帮助化学家确定要花费时间的分子组,并节省资金和精力。
制药业已经经历了机器学习的“炒作周期”。当对创新的预期达到到虚假的峰值,就会陷入幻灭的深渊。当人们理清它的局限性和实际能力时,技术也达到了生产力的稳定水平。熟悉制药行业的人们可能会意识到纳米技术和组合化学的潮起潮落。
根据Sheridan的说法,深度神经网络在药物研发领域正在接近炒作的高峰。化学家仍将深层神经网络视为一种手段,可以通过分解从人体内部发生的生物学过程中收集到的复杂数据,将药物发现提高到一个新的水平。斯坦福大学的计算化学家Vijay Pande说:“我们人类可能已经达到了理解生物学数据的极限,但是机器学习将能够理解药物化学与人体生物学之间的接口。”
诺华的化学生物学和治疗数据科学负责人詹金斯说,这种能力可以让机器学习为药物化学家们建议一个或多个分子,使他们专注在这上面努力。Sheridan表示,当他的小组将深度神经网络与其他机器学习方法进行比较时,他们发现预测能力在统计学上有显着提高。但是他说,在整个药物开发过程中,收益几乎总是微不足道的。也许机器学习可以使药物发现受益,但它将对化学的其他领域产生更大的影响。
人工智能用于材料研究
格拉斯哥大学的化学家Leroy Cronin说:“很难用机器学习来发现药物,是因为这个问题提出的不对。” 机器学习已证明可以很好地实现既定目标,例如识别人脸。但是克Cronin解释说,因为人类并不完全理解使药物成功的原因,所以我们不知道提供机器学习算法以使其成功的数据。深度神经网络处理更复杂数据集的能力可能会将它们区分开,但这仍有待观察。Cronin等人认为,机器学习在材料研究中可能会产生更快地、更大的影响。
材料基因组的概念可以追溯到2002年,2016年研究人员将其用于机器学习可以使材料研究受益的第一个演示中。作者建立了一个公共数据库,其中包括失败反应的结果,并且能够比人类更准确地预测钒亚硒酸盐的结晶反应(Nature 2016,DOI:10.1038 / nature17439)。计算机无法取代人类的直觉。橡树岭国家实验室的物理化学家Bobby G.Sumpter说,但是机器学习可以做出远远超出特定训练数据集化学空间范围的预测。如果可行,例如,我们可以根据观察到的特性预测分子的结构。目前不可能。
劳伦斯伯克利国家实验室的计算化学家Bert de Jong说,我们现在所说的机器学习主要是一种用于加速大数据集计算的工具。他补充说,它无法推断出数据集所包含的知识,无法理解分子的物理学以及真正地学习。机器学习在解释化合物和材料的图像和光谱方面具有明显的优势,尤其是在接近仪器检测极限的噪声中寻找信号。他说,它还可以帮助实时指导实验。由于机器学习可以在毫秒内吸收和解释大量数据,因此AI可以调整输入和参数以在发生实验时对其进行优化,特别是在流式反应器设置中。
人工智能用于反应发现
当许多化学家听到“机器学习”和“炒作”这两个词时,他们想到的第一件事就是逆合成分享。这是哈佛大学的Elias J. Corey提出的概念,即通过考虑关键键和结构单元来阐明合成目标分子的合成路线的概念,他和其他人一直在致力于寻找可以设计合成路线的计算机程序。
“我认为机器学习可以提高人类的能力,不是使人类变得不必要,而是使人类在所做的一切事情中都变得更有效率,”美国化学学会(CAS)产品和内容运营高级副总裁Matt Toussant说。Toussant说,CAS将于今年秋天推出其逆合成计划器ChemPlanner。
MilliporeSigma于8月发布了Synthia(之前是Chematica),这是该领域的另一项杰出产品。这两个程序都严重依赖人类专家,这些专家从文献和他们自己的知识中汲取了化学转化必须遵循的规则数据库。机器学习算法使程序可以使用这些规则浏览化学空间,并向用户建议合成靶分子的可能方法。
Chematica发明者Bartosz Grzybowski
Synthia的创建者蔚山国立科学技术学院的Bartosz Grzybowski说,机器学习只是该软件所依赖的一种工具。Synthia还使用分子动力学,量子力学和电子性质来判断合成路线的有利程度或中间体的稳定性。Grzybowski说,机器学习不能做所有事情。有机化学的某些高级方面需要所有其他工具。因此,我提倡的是开放,解决问题,而不是坚持特定的方法。”
一些化学家怀疑这些产品是否会比传统的设计合成方法具有更大的优势,传统的合成方法通常需要研究生检索Reaxys或SciFinder之类的数据库,然后进行探索和试验。Toussant说化学家关心的是像ChemPlanner这样的机器学习算法是否使它们更具生产力并允许他们做出更多发现。
Grzybowski用他口头禅回应了这种怀疑:“盘它!”将Synthia预测的路线在实验室进行测试,看看该程序是否比使用数据库的人找到更好的路线更快。在他发表的一篇论文中表明Synthia可以在短短15或20分钟内找到新颖、有效合成目标分子的途径(Chem 2018,DOI:10.1016 / j.chempr.2018.02.002)。
基于机器学习的Synthia计划了一条通往ATR激酶抑制剂的合成路线(右),该路线采取了较少的步骤,但产量却与已公布的路线相似(左)。
如果化学家认为他们需要使用诸如“机器学习”之类的流行语来吸引更多眼球或资金,Grzybowski不会怪他们。但是,一旦机器学习的炒作消失了,有价值的工具将依然存在,就像组合化学或基因组学等“过气”时尚已经证明的那样。每个人都在炒作的过山车上有自己的旅程,虽然都没有达到某些人的承诺,但它们都仍在使用中。
格拉斯哥大学的化学家Leroy Cronin说:“化学技术混乱而复杂,机器学习可以帮助设计更好的实验”,尤其是当变量的数量可能使人不知所措时,例如了解溶剂对反应的影响。化学家必须学习基本的编码技能,知道如何建立数据库和创建数据描述符,以便算法可以学习。尽管机器学习被过度炒作和令人讨厌,但我认为化学家并未充分利用它。”
Matt Toussant
美国化学文摘(CAS)产品和内容运营高级副总裁Matt Toussant表示,“我们虽然在机器学习方面正处于炒作的高峰,并且即将陷入幻灭的深渊。但是最终所有技术都会从绝望中恢复过来。希望机器学习能够做到这一点。我相信它的未来。”【we’re near peak hype in machine learning and about to fall into the valley of disillusionment. “But ultimately all technology recovers from the pit of despair,” he says. “I expect machine learning to do the same. I believe in its future.”】
参考资料:Is machine learning overhyped? Chemical & Engineering News
关键词:人工智能 CAS
分享至:
鄂公网安备 42011102004299号
© 2014-2024 前衍化学科技(武汉)有限公司 版权所有 鄂ICP备20009754号-1