数据概貌:10, 000, 000 分子 ; 100, 000 晶体; 200, 000 谱




《Nature》封面文章报道机器学习方法或掀起化学科研革命
时间:2016-05-20 16:37:00   来源:X-MOL资讯   浏览:

 
 
不久前,谷歌旗下DeepMind公司的人工智能(artificial intelligence,AI)程序AlphaGo以4:1击败世界围棋冠军、职业九段选手李世石,这被视为AI挑战人类智力的一大进步,AI是否能在智力上超过并代替人类?各种言论刷爆各种社交媒体。不过,化学家们似乎并不担心被AI抢饭碗,化学科研需要大量创新性和跳跃性思维,甚至基于多年经验的直觉,这似乎是AI难以企及的领域。但情况真这么乐观吗?
 
最近美国哈弗福德学院化学家Alexander J. NorquistSorelle A. FriedlerJoshua Schrier领导的研究小组的成果,可能会让化学家们开始担心来自AI的竞争。Norquist等人以《Nature封面文章的形式报道了一种强大的机器学习算法(machine-learning algorithm,通过使用失败实验的数据(当然也包括成功实验的数据)进行训练,在预测晶体制备策略的比赛中成功率高达89%,打败了经验丰富的人类化学家。(Machine-learning-assisted materials discovery using failed experiments. Nature, DOI: 10.1038/nature17439)
\
图片来源:NIK Spencer/Nature
 
“失败的反应中包含大量未报告和未提取的资料,”Norquist说。“失败反应的数据要比成功反应的多得多,但一般只有成功反应的数据最后被公开。”在论文中,Norquist等人将这些失败的反应称为“暗黑反应(dark reactions)”。
 
Norquist团队最开始的目标并不复杂——在水热合成反应中,简单地预测一些特定的试剂组合能否生成晶体材料。他们随后进一步收窄了任务范围,仅仅只关注一种无机-有机杂化材料钒亚硒酸盐(templated vanadium selenites)的模板化合成,这种晶体材料包含钒、硒和氧元素,其中有机小分子(如胺)作为“模板”指导这些元素的排列。
 
研究人员采用了一种标准的机器学习方法,使用了近4,000次不同反应条件下(例如温度、浓度、反应物的量和酸度)合成晶体实验的数据来训练机器学习算法。他们将存档的实验记录本中记载的数据转换成机器可以分析的格式,这些数据包括那些失败的实验。然后,计算机找出区别实验成功或是失败的原则。
\
Norquist实验室失败实验的实验记录。图片来源:Haverford College
 
为了检验这个算法,研究人员挑选了以前没有尝试过的反应物组合,并让机器学习算法有十余年相关经验的材料化学家分别预测制备亚硒酸盐晶体的反应条件。结果表明,机器学习算法建议的反应条件成功率可达89%,相比之下,材料化学家最好成绩也只有78%。
 
研究人员还该算法的结果转换更直观的经验法则“决策树”以帮助科学家使用,涉及的问题类似“钠是否存在?”及“pH值大于3还是小于3?”等等。
 
这个工作“是对科研经验进行挖掘的一个很好的例子”,开始揭开合成的“黑魔法”,劳伦斯伯克利国家实验室材料化学家Kristin Persson说。她领导了一个相似的项目,通过收集分析已知材料的信息来帮助新材料的设计和合成。
 
在发论文之余,研究人员还建立了一个名为“Dark Reactions Project”的网站(http://darkreactions.haverford.edu/),鼓励化学家们分享他们制备新晶体过程中的失败实验数据。
 
现在的进展看来只是一小步,但在不远的将来,AI或许真的能颠覆化学家的科研方式。
 
1. http://www.nature.com/nature/journal/v533/n7601/full/nature17439.html 
2. http://www.nature.com/news/computer-gleans-chemical-insight-from-lab-notebook-failures-1.19866
 

材料基因大数据库版权所有 地址: 联系电话: 皖ICP备15003994号