给GNN一堆数据，它自己发现了万有引力定律

2022-03-09 09:06:23来源：机器之心Pro

机器学习 (ML) 推动了科学的巨大进步，从粒子物理学到结构生物学再到宇宙学，机器学习能够在大型数据集中学习特征，对不同的对象进行分类，并执行参数推断，以及更具开创性的应用，例如自回归语言模型、预测蛋白质结构，以及蛋白质功能预测。

机器学习强大的学习能力，我们不禁会问，机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律？

牛顿的万有引力定律指出，两个质点彼此之间相互吸引的作用力，是与它们的质量乘积成正比，并与它们之间的距离成平方反比。它是经典力学的一部分，是在 1687 年于《自然哲学的数学原理》中首次发表的，并于 1687 年 7 月 5 日首次出版。

近日来自萨塞克斯大学、伦敦大学学院等机构的研究者在论文《 Rediscovering orbital mechanics with machine learning 》中对上述问题进行的解答，他们的回答是：可以。

论文作者之一 Miles Cranmer 推特截图

具体而言，该研究提出了一种采用机器学习方法，通过观察自动发现实际物理系统的控制方程和隐藏属性。研究者训练了一个图神经网络，通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。然后，他们使用符号回归来发现神经网络隐式学习的力学定律解析表达式，结果表明表达式等效于牛顿万有引力定律。

论文地址：https://arxiv.org/pdf/2202.02306.pdf

该研究分为两个阶段：第一阶段的学习模拟器基于图网络 (GN)，图网络是一种深度神经网络，可以通过训练来逼近图上的复杂函数。在这里，太阳系的太阳、行星和卫星的（相对）位置和速度被表示为输入图的节点，而天体之间可能的物理交互（例如力）被表示为图的边。该研究将基于 GN 的模拟器与 30 年来观测到的太阳系轨迹进行了拟合。

在第二阶段，该研究分离边函数（edge function），并应用符号回归拟合边函数的解析公式，其最好的拟合是对牛顿万有引力定律的拟合。然后，该研究使用已发现的方程重新拟合未观察到的（相对）天体质量，并找到了与天体真实质量几乎完美的拟合。之后研究者可以使用发现的方程和重新学习的质量来模拟太阳系动力学，并获得与真实观察到的轨迹非常接近的对应关系。

下图为太阳、水星、金星、地球和火星的示意图，以及学习模拟器使用的相应图结构。图的节点代表天体，边的亮度与它们之间的引力相互作用的强度成正比。

数据与模型

数据：符号回归研究历来都专注于玩具（toy）模拟，但是现实世界的数据充满了混乱，包括噪音、信息丢失、未知的物理常数等。因此该研究直接从对太阳系的观察中重新发现轨道力学。

该研究基于 NASA Horizons 的星历表（Ephemeris）数据开发了一个训练数据集，数据集包括太阳系中质量超过 10^18 kg 的 31 个天体：太阳、行星、冥王星和一系列卫星。训练数据来自 1980 年到 2010 年的 30 年期间的数据，验证集来自 2010-2013 年的数据。

模型：模型是基于 Battaglia 等人在 2018 年提出的交互网络（Interaction Network）的图神经网络 (GNN)。GNN 非常适合物理数据集：它们通过消息传递显式地处理对象（节点）之间的交互，并允许研究者轻松地将对称（如置换、平移和旋转等）嵌入到网络中。

GNN 的唯一输入是天体在给定时刻的位置和速度，以及学习参数。通过训练 GNN 来预测每个天体的加速度，模拟系统的动力学，以及天体的质量。

蒸馏符号规则

接下来，研究者希望找出 GNN 实际学会了哪些规则来预测这些动态。将模型压缩为一组符号规则也可以提高泛化能力。

为此，该研究使用符号回归拟合 GNN 消息传递模块的输入和输出。符号回归是一种机器学习算法，可搜索数百万个符号表达式以拟合数据。该研究使用 PySR 算法 (Cranmer, 2022) 来完成这项任务，其中用到了一种进化算法。

下图是从已经过学习的模拟器中发现的符号表达式，从中可以发现所有情况下输出变量都是 F_x，

更复杂的表达式能更准确地逼近 GNN 的内部函数。然而，人们总是可以在一个简单的表达式中添加其他项来提高它的准确性，所以简单性和准确性是可以权衡的。该研究使用与 Cranmer 等人 (2020) 相同的分数，成功地模拟了牛顿的万有引力定律（如上图蓝绿色所示）。

然后研究者把这个已模拟的规律，放回 GNN 的消息传递模块中，得到的模拟效果如下：

显然，性能变好了一些，但仍然不完美，为什么？

为了解决这个问题，研究者首先比较了每个天体的算法估计质量与真实质量（归一化到太阳的质量范围内）：

与每个天体的真实质量相比，模型估计的质量偏差很大，有时甚至相差几个数量级。

虽然 GNN 中的消息传递函数能够很好地近似牛顿万有引力定律，但并不能完全精准地拟合。神经网络可以高度学习非线性函数，但这些质量参数可能对 GNN 来说是良好输入，却不是 GNN 符号版本的最佳输入。

因此，该研究决定通过固定的符号表达式重新拟合质量参数，这种改进确实产生了更好的效果：

此时，模型重新估计的天体质量和真实质量的比较结果如下图所示：

改进之后，模型估计的天体质量几乎完全匹配真实质量。为了解释这一点，研究者认为需要做的是证明该算法的有效性。

我们知道，天体的质量只影响它对其他天体的引力，例如如果地球变成两倍大，月球轨道会受到很大影响，但地球环绕太阳的轨道会保持不变。对于像 Phoebe、Hyperion 和 Nereid 这样的天体，由于它们是非常小的卫星，对其他天体轨迹的影响可以忽略不计。因此，只要它们的质量很小就不会以任何方式影响系统。为了证实这一理论，研究者估计了每个天体对其他天体的引力影响，并联合质量估计的误差作图。

从上图可以发现，两者之间存在明显的负相关，这意味着一个天体对其他天体的引力影响越小，质量估计的效果就越差。这也就解释了该算法如何一步步地成功学习了万有引力定律和预估天体质量。

关键词：万有引力定律机器学习神经网络消息传递通过观察