欢迎光临散文网 会员登陆 & 注册

用于化学研究的GPT-4:可以/不可以做什么?【02】

2023-06-14 10:19 作者:AIDDPro  | 我要投稿

性质预测

语言学习模型(LLM)具有独特的few-shot学习能力,使其能够用有限的数据学习未知化合物.比如它可以根据事先对TEMPO电位的了解,准确预测了TEMPO的氰基衍生物的氧化还原电位。这种预测与实验结果一致,并超越了传统的化学信息学方法,因为传统的化学信息学方法需要收集大量的数据,而且往往缺乏精确度和可解释性。

GPT-4,展示了使用一次性(one-shot )学习来预测潜力的能力。这种推断是建立在关于氰基的电子吸收特性及其对电位转移的积极影响的先验知识基础上的,其电位转移通常在0.1V左右。缺乏这种知识的传统回归模型将发现一次性学习是不可能的。GPT-4还擅长从特定的数据集中提取相关的变量,如化学数据,用于预测任务

优化单个变量

信息学研究的最终目标是使研究过程本身自动化。传统的预测模型由于对语言信息和变量含义的考虑有限,所以很难提出适当的实验条件。然而,GPT-4由于能够理解变量的含义,显示出以较少的指令进行自主研究活动的潜力。在一项搜索分子沸点的任务中,GPT-4通过利用先前的知识并在几次试验中达到接近目标的解决方案,显示出高效的性能。

相比之下,贝叶斯优化法需要更多的试验。尽管GPT-4在变量搜索方面有一些限制,但这些限制可以通过相应的方法来缓解。例如,当纳入像Wolfram这样的算术处理模块时,GPT-4在很短的时间内就取得了完全正确的答案。总的来说,GPT-4在根据其物理化学知识自主设置最佳实验条件方面显示出了前景。

考虑多个变量优化反应条件

在一个涉及多个变量的更复杂的化学系统中,作者想要优化反应条件,使目标化合物的产量最大化,同时防止不需要的副产品的形成。由于初始条件的随机选择,贝叶斯优化需要多次试验。然而,GPT-4凭借其物理化学知识,可以根据给定的反应方案推断出合适的初始条件。它准确地推断出提高的某些化合物的初始浓度有助于反应的进行,并且反应不应进行太长时间。最后,GPT-4建立了接近理想的条件,在不到五次试验中获得了可靠的高产量。

虽然GPT-4的能力很强,但是它不能识别大型数据库。因此,将GPT-4与数学工具、贝叶斯优化等框架以及Python等编程语言结合起来,对于发挥语言计算的协同优势是必要的

Black box优化

该部分评估了GPT-4利用其物理化学领域的知识优化一个非线性黑箱函数的能力。然而,在这个特殊的系统中,物理参数的重要性被忽略了,GPT-4的表现并没有超过贝叶斯优化。

GPT-4很难提出有效的措施来提高目标值,在大多数情况下都假设是线性的。在一次GPT-4假设二次函数的试验中,它表现得相当好,但这种成功是由于系统主要包含二次函数。另一方面,不假设特定函数系统的贝叶斯优化,一般在更多的试验后达到目标变量的最大值。总的来说,GPT-4的能力显示了嵌入领域知识的前景,但贝叶斯优化仍然是在不同情况下优化函数的更好的选择

分子探索

在化学信息学中,生成符合特定规定的复杂化合物是非常困难的。传统的方法专注于生成在计算上有利的结构,但它们往往没有考虑到诸如合成难度、溶解度和稳定性等限制。GPT-4具有语言计算能力,通过考虑分子设计和选择中的语言规则,可以弥合虚拟建模和湿实验之间的差距

例如,在设计用于自组织光刻的嵌段聚合体时,GPT-4可以考虑χ和𝑅a(汉森溶解度参数)等参数以满足特定的结构要求。通过施加限制并使用GPT-4,产生了几个建议的结构,包括苯乙烯和甲基丙烯酸甲酯的共聚物,已知它能表达所需的垂直方向的片状结构。这种方法与传统方法形成鲜明对比,后者往往导致难以合成和不稳定的结构。然而,GPT-4生成分子结构的能力相对较弱,建议使用专门的深度学习算法来生成分子,由GPT-4决定其是否合适。

与执行器同步的能力

GPT-4展示了在现实空间研究中与执行器(如机械臂)互动的能力。它可以解释语言命令和约束条件,控制机械臂执行任务,如用吸管转移液体。GPT-4自主地生成命令并协调机械臂和吸管的运动,以完成所需的任务。通过自然语言界面控制机械臂有实际的好处,使没有计算机或机器人科学专业知识的化学家也能使用。随着物体识别和多模态人工智能模型的进步,预计系统操作将更加灵活。有可能创建自动系统,通过简单地要求合成特定的化合物来进行实验。然而,要实现这样的自动系统,必须将复杂的合成、纯化和测量操作委托给机械臂或类似设备。使用负担得起的机械臂系统、物联网设备和3D打印机的开源系统开发可能成为未来的一个趋势。生成模型也可以应用于创建3D图纸和设计电子电路等任务。开发使用语言模型分析自动化系统产生的大量数据的方法很重要。

LLM的自主研究

GPT-4有可能通过结合和改进现有的方法来自主地执行研究任务。它可以在像Minecraft这样的虚拟环境中做出决定并采取行动,这表明在包括研究在内的各种物理任务中自主进步的可能性。传统的使用贝叶斯优化的闭环需要人类的干预来缩小搜索空间,而像GPT-4这样的LLM可以在语言空间内自由操作,实现研究任务的自动化,如文献搜索、实验条件设置和结果报告。

已经有自主代理(agents)利用GPT-4,由LLM自己决定下一步行动。AutoGPT等项目正在探索任务的自动化,包括执行程序代码。人们已经努力将代理人格化,并促进对话或将其状态输出为抽象语言对象。这些对象包含子概念,并可以用互联网上的相关数据进行更新。

尽管GPT-4可以解决基本的数学问题,但当涉及到高级证明或未解决的数学问题时,它就显得能力不足了。GPT-4的推理能力和令牌限制使其无法解决复杂的规划问题。因此,在LLM能够自主地缩小研究课题、计划实验或撰写论文之前,仍有一个差距需要弥补。

挑战与困难

GPT-4在应用于化学研究时面临三个重大挑战:

a) 处理非语言数据:GPT-4作为一个基于文本的人工智能,在解释分子结构和实验数据等非文本信息方面存在困难。短期解决方案包括使用专门的深度学习模型或算法作为插件来弥补这一限制。长期解决方案包括开发多模态的LLM,整合语音/图像识别模型或表格数据和分子结构的模型。扩大像Transformer这样的多功能模型的规模也是一个潜在的解决方案。

b) 输入技术和最新的信息:GPT-4在2022年9月之前的知识是有限的,而且很难处理最前沿的化学文献。短期的解决方案涉及检索方法,即检索相关文献并将其纳入LLM的提示中。然而,这有象征性的限制,使得它难以纳入广泛的前沿信息。目前正在探索构建本地的LLM,从头开始或通过微调等方法学习专门的数据。

c) LLM的推理能力:像GPT-4这样的LLM会在数学处理中犯错,并根据有缺陷的知识提供不正确的答案。对于完全自动化的化学研究来说,仍然缺乏长期的规划能力。这一领域的改进对于实现自主研究至关重要。虽然化学家可能不会直接为解决这个问题做出贡献,但深度学习的进步和人工通用智能或超级智能的出现可以解决这些挑战。

总的来说,解决这些挑战需要多模态LLM的进步,与专业模型的整合,知识整合的改进,以及LLM推理能力的增强。参考资料:

Hatakeyama-Sato K, Yamane N, Igarashi Y, Nabae Y, Hayakawa T. Prompt engineering of GPT-4 for chemical research: what can/cannot be done? ChemRxiv. Cambridge: Cambridge Open Engage; 2023; This content is a preprint and has not been peer-reviewed.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


用于化学研究的GPT-4:可以/不可以做什么?【02】的评论 (共 条)

分享到微博请遵守国家法律