图源:unsplash
// 引
///
AI+材料科学
// 编者按——刘淼
///
AI+材料科学
信息技术为产业带来了一场革命。正如300年前蒸汽机的发明启蒙了现代工业,欧博官网现在的数字化浪潮带给了各行各业一种进一步提升生产力的“新工具”。近期,人工智能、大数据等技术不断进步,并且在图像识别、语义分析、棋类游戏等方面达到甚至超越了人类。人工智能赋能各行各业,为产业、科研带来了新机遇。
在材料科学领域,人类正在以前所未有的速度制造数据。每秒钟,全世界用在物理、化学、材料领域的超级计算机算力高达~1017个双精度浮点运算,生产约千万亿字节(PB)级别的有效数据。实验科学的新方法,如高通量材料制备表征,可以通过一次制备过程获得成百上千个材料组分,使材料科学研发效率大幅提升。合理的采集、存储、处理、查询、整理、复用这些科学数据已逐渐成为一门新兴且关键的领域。人工智能赋能材料科学,有望为材料科学带来范式化革命,即通过数据方式高效指导材料研发路径,从而提升效率,降低成本。
本期未来论坛青创联盟线上研讨会(YOSIA Webinar)有幸邀请到四位来自“AI+材料科学”领域践行者。讨论会期间,各位嘉宾分别就“AI+材料领域”的前沿领域做了详尽介绍:汪洪博士介绍了上海交通大学在《数据驱动的材料创新基础设施》方向的前沿进展,高屋建瓴的介绍了材料基因的先进概念,对数据采集和数据库建设提出了标准化要求;刘宜晋博士介绍了《X射线大科学装置与人工智能在先进材料表征中的应用》,通过具体实例展示了人工智能带给美国SLAC加速器在材料表征数据处理中的能力提升;胡嘉冕博士就《机器学习在介观尺度材料设计中的应用》方向开展了深入探讨,解释了机器学习模式在多晶界、微结构等复杂介观体系中带来的方法性变革,开启了高效、高速、高精度材料模拟的可能;刘淼博士讲述了近期中科院物理所在《数据驱动的材料研究》的进展,展示了自主开发的高通量计算软件、海量数据库及若干实例,改变了我国材料数据库长期依赖舶来品的困境。未来材料科学发展要求我们通过人工智能等大数据方式,通过流程化、自动化的高通量计算和实验积累原始数据,通过系统化的提取材料“结构-物性“之间的隐形联系,形成材料筛选和预测机制,加速材料研发。将材料科学与信息化技术联合,是一种方法上的创新。顺应当前大科学、大数据、互联网时代的科学研究潮流。发展材料大数据科学平台,创造新材料科研手段,发明新方法和新工具,形成材料按需设计的研发方法,将会从深层次提高材料研发原始创新能力。
刘淼
中国科学院物理研究所特聘研究员,博士生导师
atomly.net创始人
▍ 跨学科讨论
已有基础设施的助力
周华:如何整合和充分利用已有的但分布式布局(特别是地域空间分离的)的各种基础设施,使之成为一个新的以数据为中心的材料基因组集成平台?
汪洪:现在各个国家都建立了很多可以称为平台的机构,这与我们的长远目标是完全一致的,这些平台本身都具有产生数据的能力,不同之处是:过去我们习惯的数据形式、内容和未来略有差别。
我们制定的材料基因工程的数据通则,充分考虑了未来的需要。过去的数据库,建立了成份、结构和某种性能之间的关联。为了适应未来更加开放、共享和能反复使用数据的需求,我们要把样品、原始数据、由原始数据推导出的或者经过处理的数据打散了包括在数据库当中。
制定通则的时候,其核心问题是要建立相应的标准,只要按照一定规则进行,整个社会的机构可以形成一个大的网络,分布式便不再是问题。至于具体如何建立交换机制,我们也在探究中。一个想法是利用区块链技术,既保证数据的真实性和可追溯性,也保证了原本拥有权。在这个基础上数据有足够能力自由流通,这个机构建在什么地方也就不那么关键了。
机器学习的策略与优势
周华:高通量实验表征的设计与实施应该如何选取和优化?它的挑战和应对策略分别是什么?
刘宜晋:高通量实验表征包含两种不同类型。第一种类型是自动化,高效率测试大量不同材料,用这种方式搜索参数空间,寻找最优化组合。如我们最近参与的一个工作:对数据进行实时分析和预判,从而针对性的选择下一个实验的采样点。实验不再简单按照预先设定好的流程,而是有的放矢,能够一定程度上提高实验效率。另一种类型是对复杂的系统用高时间和空间覆盖率,覆盖比较大的视野,用多模态的实验手段,多维度和动态地跟踪材料体系的变化。最后在产生的大量数据中寻找蛛丝马迹,找复杂体系中的蝴蝶效应,将微观现象和宏观性能进行关联。这种工作需要保证数据采样足够多,并且需要非常仔细的验证,最后才能保证结果是统计上可靠的。
周华:从机器学习角度和提速材料设计角度来看,“性能需求反溯微结构设计”和“微结构设计优化预测性能”这两种导向,欧博哪种更能发挥AI、机器学习的优势?
胡嘉冕:两个问题并不矛盾,材料设计应以优化性能为导向,以找到合适的原材料和材料制备工艺为目的。但对微结构的预测和设计优化不可或缺,从工艺到微结构再到性能(Processing-Microstructure-Property)是一个完整的链。首先,预测不同工艺条件(比如温度、成分、压强等)下的微结构,然后再预测与此微结构对应的性能。接下来,需要做实验来验证在给定的工艺条件下是否能获得相应的性能。如果实验表明预测的性能未达到预期,则需要重新选择其他工艺条件,再重复上述过程直至性能满足预期。关键在于怎样让工艺条件的再选择变得更高效,而不是没有目的地试。在这方面,贝叶斯优化(Bayesian optimization)或可发挥一定的作用。
Atomly的不同之处
周华:数据库和 Materials Project 之间有什么样的区别和联系?
刘淼:我们更想建立的是一套流程方法。对于高通量计算这种方法来说,它不仅仅只是数据库,国外已经有此类的程序包、工作流和基础设施,给我们很多启发。在建立Atomly以后,我们也可以针对某一类材料做高通量计算,拥有这样的工作模式。
我们对Materials Project的方式比较认同,现阶段的成品比较相似。但我们现在的数据量和数据质量,在某种意义已经超越了Materials Project,例如Atomly.net有14万个晶体结构的,Materials Project只有7万个。目前Atomly.net数据库已经完成了几乎所有人类已发现的实验结构的计算,现在正在增加的都是人造结构,随着数据积累再过三五年之后大家就可以逐渐体会出差别。
周华:从数据驱动推进的角度,例如材料制备和实现过程,产生的庞杂的内容,能否整合到数据库里,帮助材料计算、预测?
刘淼:材料科研的第四范式就是用材料数据的积累改变从前个人经验积累的模式。把群体的智慧不断结晶、积累下去,才是根本方式的变化。另外,生产数据的模式不仅仅限于计算,所有可以批量生产高度一致性数据的方法,都有可能有益于材料数据科学,只不过现阶段通过高通量计算获得大批量的数据是比较容易。
前面也提到,数据产生过程的数据标准化非常重要,这并非人为规定的数据标准,而是保证在数据库内每个数据之间具有相同标准,具有可比较性,才能让这个数据集扩充下去。
我们正在实践这样的事情,第一批的计划是做DFT计算数据库,未来还会有实验数据库,包括各种组合材料方法,各种批量制造材料、批量表征材料的方式产生的数据。
图源:unsplash
描述子的本质
周华:尹万健老师的报告中提到,通过数据挖掘可以精炼出简洁的描述符,也叫描述子。因此,描述子的构建如何能反映材料构效更本质的规律?
尹万健:要做机器学习,数据质量非常关键。描述子其实是一个化学语言,就是定量描述一个复杂现象的简单标度,一个好的描述子需要两个条件:一是准确,二是简单,太复杂不容易被公众接受。以衡量综合国力为例,大多数国家使用的指标是GDP,虽然它并不算比较好的描述,但却非常直观。
先谈谈我们研究催化描述子的原因,因为催化描述子 D-band theory已经非常成功了,我们为什么还要做?从做计算角度来看,D-band theory没有那么简单,至少还需要DFT计算。
所以,如果数据库中有十几万种材料的话,就必须把十几万种材料的D-band位置都计算出来,其实,这非常复杂的。于是,我们思考,能否构建更简单的描述子?从而将催化和材料结构、元素联系起来。这时,采用domain knowledge (领域知识)很难建立联系,因此我们采用机器学习进行尝试。可能是钙钛矿体系比较“优秀”,我们找到了一个比D-band theory更简单的描述子,这个描述子不需要DFT计算,它只和离子半径有关系。
所以,网盘们通过自己的研究发现:AI确实能发现好的描述子,指导我们发现新材料,但AI发现的新描述子到底有什么物理意义,很多情况下并不清楚。如果能够进一步挖掘简单描述子背后的物理意义,就能得到新知识。这样的话,AI不仅帮助发现新材料,还可以教我们新知识,这可能是更重要的意义。
跨领域融合与数据共享
周华:材料科研界和工业界的合作目前还比较松散,这种紧密合作目前的最大挑战和难度是什么?材料科学家在推动这一进程中能做些什么?
汪洪:我们研究材料基因组的最终目标就是要应用,因此我们和很多的企业建立了联系,进行了很多沟通。但是往往涉及到具体案例的时候,还是会出现问题。企业共有的担心的是数据的保密性,因为有些数据是他们的生命线。在这个问题没有解决之前,作为外单位的人与他们合作是有门槛和困难的。
刘淼:这是业界的共同问题,并不仅仅限于材料领域或者AI领域。大家在回答问题“我们如何和产业结合,从而解决生产中实际问题”的时候,确实有代沟和分歧。基础科研和应用研发在过去是脱节的,应用研发解决的是企业材料具体应用的问题。但我们国家整体的方向,正在步入从基础科研逐渐向应用转化的过程,意味着我们的基础科研实力逐渐增强的时候,大家会慢慢延伸到应用领域。
所以我不太担心这个问题,只是时间早晚的问题。具体怎么样和企业合作,我的看法是:把材料研发过程中的一些好的工具、好的方式不断地巩固扎实,让工具变成业界和学界有效沟通的助手;另外一个好的方式是数据,企业以前可能不知道DFT怎么计算,当我们有了这样的工具可以把DFT门槛降低,就能够将企业的材料研发方式和企业应用进行贴近。所以,这是一个开放的问题,也是正在解决的问题。
刘宜晋:在这个问题上,我认为学术界的研究人员可以有所作为。比如我们做的工作可以努力朝着Open Source、Open Data方向努力,这能够从我们这一端把这个事情往前推,经过我们的努力来争取工业界的正向回应。
周华:在学术界或科研界内部,如何能有效的实现AI+材料研究的数据共享?
汪洪:材料界有一个共识,急需要有一个交换机制。如果数据是由国家资助生产的,它的归属自然是国家,但若通过自身资源生产出来的数据,肯定也需要一定回报的,所以交换机制非常重要。
客观上交换机制经历了很多讨论,但现在为止并没有一个特别清晰的结论。但在区块链的发展之下,它在商业领域应用了很多,在未来几年内可能会产生与此相关新的交换机制。如果将来所有材料开发都是数据驱动的话,那么数据就是一个基本的财富,数据的商业化和产业化会发展起来,这个过程中必然会产生比较实用的,广泛接受的交换或者购买机制,更容易推广数据的共享。目前即使以国家项目来收数据,也存在很多困难,未来可能会有所改变,但今天还是大家一个共同的心愿。
周华:人工智能或机器学习能否对材料合成方法和路径做一定的预测或规划?
刘淼:比如伯克利的Ceder团队试图用机器学习读文献,他们的数据库里已经有300万个文献,将300万个材料合成方法范例之后和计算数据做吻合,机器学习可以提取出一些材料的合成方式,那么其他的新材料就可以用这个模型去预测,我认为这是业界最领先的方式。一切皆有可能,大家只要善于思考,才有可能产生这样具有开创性的方案。另外我们可以用高通量合成、高通量表征这样的方式积累数据,当数据量到达一定程度,我们也能得到相应的知识。
周华:机器学习能否对亚稳状态的材料合成有所帮助?
刘淼:这需要具体问题具体分析,总体就是如果有足够多的数据,数据质量足够高,多少会给出一些洞察。大家不要被已有的方式局限思路,我们其实在做一个信息化的方式,信息化是一种技术革命,带给我们很多可以做的方向,并不仅限于我们展示给大家的这些,有开创性的思维可能会更重要。
周华:用数据驱动来进行研究可能解释性比较差,甚至要改写材料科学的基础理论,我们该如何推进材料科学理论的进步?
尹万健:我们的物理定律是人类几百年来慢慢总结和发现的规律,这些规律是不是能够代表全部?这是一个根本性问题。用我们做计算的语言来说,人类现有的知识结构(domain knowledge)是否有可能只是处于整个知识结构(knowledge landscape)的一个局域波谷处(local minimum),因此而出现“一叶障目,不见泰山“。就像下围棋一样,算法可以不按照人类千年来总结出来“定势”来走,最后还是把你给打败了,说明所谓的“定势”本身就不是最优的。现在机器学习有一个方向叫做“可解释的机器学习”,我们不仅要知道这个材料比其他材料好,还要知道为什么,它背后的规律在哪儿。所以有没有更好的方法让我们应用到材料科学上,更好理解背后的物理规律,这方面现在可能刚刚起步,这需要不同科学领域的人相互交流。
胡嘉冕:举一个机器学习预测有机分子性能的例子。研究人员通过机器学习定量分析了分子中每一个原子对最后结果的贡献度。他们发现,机器筛选出来的具有最大贡献度的原子正巧是该分子的催化活性中心。有时候,如果数据量太大,可以通过机器学习先筛选出统计意义上最重要的数据,然后我们再对该部分的数据进行重点分析,这样更为高效,或对新科学现象的发现起到促进作用。
刘宜晋:机器学习可以帮助我们捕捉到大量数据里面的蛛丝马迹,从而了解一些原来没有预想到的化学反应。这些信息可以反过来帮助我们理解整个流程,从而可以提供一些信息让我们进一步改进材料设计。
AI人才培养的期许
周华:针对材料物质科学的年轻学生和刚加入这个领域的新生力量的,他(她)们需要有怎样的准备,训练和积累来迎接材料探索开发新时代的到来?
汪洪:现在的同学们随着计算机一起成长,对于未来要进入材料科学的同学来说,计算机技术是非常重要的一环,今后的学生,除了要打牢物理、数学、材料的基础,学习计算机、学习编程对于未来会有极大的帮助。所谓培养下一代的材料学家,就是要培养他们从思想上要认识到数据驱动是必由之路,能够掌握数据驱动这些基本工具。
刘宜晋:我们做研究必须得从自己的专业出发,一开始不要追求很复杂先进的算法,从小问题逐步开始,一切皆有可能,但是要明确自己的未来发展方向。
尹万健:我经常和我的学生说,千万不要追求大而全,也许我们做的工作,方式不是最完美,算法不是最好,但是一定要想我们是要解决什么科学问题,你把自己定位成什么很重要。如果定位成做材料的,首先要想清楚到底要解决材料里的什么问题、设计什么材料、如何改进材料性能,作为年轻科研工作者提出合适的问题非常关键,然后再想怎么样利用好机器学习这个工具。
刘淼:我建议比较年轻的同学或者从业者尽早规划自己的职业,只要找到自己的热爱,剩下的问题迎刃而解了。