b谷歌DeepMind研究人员今天在《自然》杂志上发表的一篇论文称,一种名为GenCast的新型机器学习天气预报模型至少在某些情况下可以胜过最好的传统预报系统。
使用类似于人工智能(AI)图像生成器的扩散模型方法,该系统生成多个预测以捕捉大气的复杂行为。它只需要传统方法所需的一小部分时间和计算资源。
我们实际使用的天气预报是通过对大气进行多次数值模拟得出的。
每次模拟都是从对当前天气的略微不同的估计开始的。这是因为我们不知道世界上任何一个地方在这个时刻的确切天气情况。要知道这一点,我们需要到处测量传感器。
这些数值模拟使用了一个被划分成三维网格的世界大气模型。通过求解描述自然基本物理定律的方程,模拟可以预测大气中会发生什么。
这些模拟被称为一般环流模型,需要大量的计算能力。它们通常在高性能的超级计算设备上运行。
过去几年里,利用机器学习制作天气预报模型的努力出现了爆炸式增长。通常,这些方法不像一般循环模型那样包含我们对自然规律的了解。
这些模型大多使用某种形式的神经网络来学习历史数据中的模式,并产生一个单一的未来预测。然而,这种方法产生的预测会随着未来的发展而失去细节,逐渐变得“更平滑”。这种平滑不是我们在真实天气系统中看到的。
b谷歌旗下DeepMind人工智能研究实验室的研究人员刚刚在《自然》杂志上发表了一篇论文,描述了他们最新的机器学习模型GenCast。
GenCast通过生成多个预测的集合来减轻这种平滑效应。每个单独的预测都不那么平滑,而更接近于在自然界中观察到的复杂性。
对实际未来的最佳估计来自于对不同预测的平均。个别预测之间的差异大小表明存在多大的不确定性。
根据GenCast的论文,这种概率方法产生的预报比世界上最好的数值天气预报系统——欧洲中期天气预报中心的系统——更准确。
GenCast是根据1979年至2018年的再分析数据进行训练的。这些数据是由我们之前谈到的那种一般环流模式产生的,这些模式经过额外的校正,与实际的历史天气观测结果相似,从而产生更一致的世界天气图像。
GenCast模型对地表和13个不同高度的温度、压力、湿度和风速等几个变量进行预测,网格将世界划分为经纬度为0.25度的区域。
GenCast是所谓的“扩散模型”,类似于人工智能图像生成器。然而,它不是获取文本并生成图像,而是获取大气的当前状态并生成12小时后的估计。
它的工作原理是首先将未来12小时的大气变量值设置为随机噪声。然后,GenCast使用神经网络在噪声中找到与当前和以前的天气变量兼容的结构。从不同的随机噪声开始,可以生成多个预测的集合。
预测可以运行15天,在一个被称为张量处理器单元(TPU)的单个处理器上只需要8分钟。这比一般的循环模式要快得多。使用32个tpu对模型进行了5天的训练。
随着机器学习预测变得更加高效和可靠,未来几年机器学习预测可能会变得更加普遍。
然而,仍然需要经典的数值天气预报和重新分析的数据。它们不仅需要为机器学习天气预报提供初始条件,还需要生成输入数据,以不断微调机器学习模型。
目前的机器学习天气预报系统不适用于气候预测,原因有三。
首先,为了预测未来几周的天气,你可以假设海洋、陆地和海冰不会改变。对于几十年的气候预测,情况并非如此。
其次,天气预报高度依赖于当前天气的细节。然而,气候预测所关注的是未来几十年的气候统计数据,与今天的天气无关。未来的碳排放是未来气候状况的更大决定因素。
第三,天气预报是一个“大数据”问题。有大量的相关观测数据,这是你需要训练一个复杂的机器学习模型。
气候预测是一个“小数据”问题,可用数据相对较少。这是因为相关的物理现象(如海平面或气候驱动因素,如厄尔Ni?o-Southern涛动)的演变要比天气慢得多。
有很多方法可以解决这些问题。一种方法是利用我们的物理知识来简化我们的模型,这意味着它们需要更少的数据来进行机器学习。
另一种方法是使用基于物理的神经网络来拟合数据,同时满足自然规律。第三种方法是使用物理学为系统设定“基本规则”,然后使用机器学习来确定特定的模型参数。
机器学习在未来的天气预报和气候预测中都将发挥作用。然而,基础物理学——流体力学和热力学——将继续发挥至关重要的作用。