来自材料牛
【导读】
碳氮(C-N) 偶联的战略价值使其成为化工企业许多领域的重要变革。特别是,Buchwald-Hartwig (B-H)偶联是最重要的C-N成键反应之一,并彻底改变了现代合成有机化学的实践。在反应过程中,钯配合物催化(杂)芳基亲电试剂与各种氮亲核试剂的交叉偶联。实验人员通常需要确定新的B-H偶联的基材特定条件,而参与这一转变的亲电试剂和亲核试剂范围广泛,需要开发许多催化剂和条件,才能使不同的反应分子成功偶联。选择合适的钯配体尤为重要,因为B-H偶联对配体结构的变化异常敏感。机器学习方法在加速识别化学转化的反应条件方面具有很大的潜力,通过机器学习构建碳氮偶联实验数据集可实现pd催化C-N偶联的底物自适应条件的预测。
【成果掠影】
近期,美国伊利诺伊大学厄巴纳-香槟分校的Scott E. Denmark教授以及瑞士巴塞尔合成分子技术开发过程化学和催化制药部的Raphael Bigler和Serena Fantasia等人提出了一种工具,给出了钯(Pd)催化碳氮(C-N)偶联的底物自适应条件预测。该工具的设计和构建需要生成一个实验数据集,该数据集可以在一系列反应条件下探索不同的反应物配对网络。通过系统的实验设计过程,利用神经网络模型主动学习大范围的碳氮偶联。模型在实验验证中表现出良好的性能:从一系列与样品外反应物的偶联中分离出10个产品,产率超过85%。重要的是,随着数据量的增长,所开发的工作流程不断提高工具的预测能力。相关研究成果2023年8月31日以“A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed C–N couplings”为题发表在国际著名期刊Science上。
【核心创新点】
设计的机器学习模型可以使用随机分割的数据以9%的平均绝对误差实现pd催化C-N偶联反应的产率预测。随着数据量的增长,机器学习工具的预测能力越强。
【成果启示】
本文描述的数据集包括大于120对的反应物,系统地探索了B-H偶联空间的微观世界。在这些数据上训练的模型同时学习了许多不同种类的反应物的非线性反应性趋势。这些模型可以使用随机分割的数据以9%的平均绝对误差预测反应的产率,并且在反应物泛化方面表现出色,正如样品外底物验证所证明的那样。实现这一目标的关键是一种信息学指导的策略,该策略将探索45万分子反应空间的实验不可能性降低到获取仅包含3300个实验的数据集的实验可处理的问题。本文提出了这个经过验证的pd催化C-N偶联工具,以及一个主动学习工作流程,与之前的工作不同,它被用来为化学社区建立一个扩展的数据集。化学界可以在四个不同的层面上参与这项工作。对机器学习不感兴趣的实验人员可以在没有机器学习或编程专业知识的情况下使用本工作中提供的工具快照,并期望性能与实验验证相符。该项工作邀请任何对机器学习感兴趣的从业者使用该工具并恢复图4中的工作流程,将该工具磨练到新反应物领域或稳步提高现有数据集领域的预测精度。此外,该项工作也邀请任何具有机器学习专业知识的从业者将新的主动学习框架用于具有扩展多反应物空间的其他重要反应。
原文链接:https://www.science.org/doi/full/10.1126/science.adg2114