研究意义

能源,作为工业的基石和国民经济的动脉,对国家的发展和人民的福祉具有不可替代的重要性。它不仅关系到国家的繁荣和安全,也是推动社会进步和经济发展的关键因素。随着我国经济的迅猛发展,对油气资源的需求急剧增加,国内产量已无法满足这一日益增长的需求,导致油气进口量不断攀升,对外依赖度也随之上升。在全球能源需求持续增长的背景下,油气勘探与开发正遭遇前所未有的挑战。一方面,我国的大庆油田、胜利油田等大型油田主要为陆相生油环境,与海相盆地相比,陆相盆地的地质条件更为复杂,勘探难度更大,这些油田经过长期开采,资源逐渐枯竭,进一步增加了勘探和开发的难度。另一方面,随着勘探技术的深入,常规油气藏资源逐渐耗尽,勘探目标转向了地质条件更为复杂的非常规油气藏。非常规油气藏具有高度非均质性、薄层、疏松砂岩、高泥质含量和较差储层条件等特点,使得地质勘探工作面临巨大挑战。

作为目前连续性好,分辨率高的地质数据之一,测井曲线数据中蕴含了丰富的地质信息,被广泛应用到石油勘探流程中。通过分析井下测得的各种物理参数,测井解释能够提供关于地层性质、岩石类型、孔隙度、渗透率等关键信息,这些信息对于确定油藏的位置、评估储量和制定合理的开发方案至关重要。随着油气勘探向非常规储层的拓展,对测井解释也提出了更高的要求,而传统的测井解释方法主要依赖于专家的经验和手动操作,这种方法由于高度依赖个人经验和主观判断,解释结果往往存在较大的不确定性。此外,手动操作不仅耗时长,而且成本高,难以满足现代勘探开发对效率和经济性的要求。特别是在非常规储层的勘探中,复杂的地质环境和多样化的测井数据使得传统方法难以有效应对,进一步加剧了这些问题。

近年来,机器学习和深度学习在测井资料处理与解释中得到了广泛应用,这些模型能够从海量数据中自动地提取特征,大大提高了测井解释的效率,但这些方法仍然存在一些显著的局限性。这些方法依赖大量标注数据进行训练,然而在实际应用中,高质量的井上标注数据难以获取,这限制了模型的训练效果和应用范围,模型的解释能力往往有限,难以提供详细的地质解释和物理意义,导致地质专家对这些模型的信任度不高,影响了其在实际生成中投入使用。此外,当前测井解释模型通常针对特定工区和任务进行设计和训练。然而,由于不同井位的地下沉积环境存在显著差异,模型在训练过程中可能会过度拟合特定数据集的特征,而未能学习到更为普适的地质规律和特征。这导致模型在面对新井位或未见过的地质条件时,表现出较大的不确定性和误差,后续任务或工区也可能需要重新训练和调优模型,导致资源浪费和开发周期延长。

大型语言模型在文本处理方面取得了前所未有的成功,多模态模型也在图像、视频和语音等多种数据类型的处理上展现出巨大的潜力。这些经过大规模无标签数据自监督预训练的模型展示了显著的泛化和多任务迁移学习优势,能够在多种任务和领域中实现知识的有效迁移和应用。例如,大型语言模型在自然语言处理任务中表现出色,能够生成高质量的文本内容;多模态模型则在图像识别、视频分析和语音处理等任务中展现了强大的性能。

预训练大模型的出现为测井解释提供了新的思路。测井数据规模庞大,并且随着勘探过程的持续进行,原始数据和成果数据、老数据和新数据不断积累,数据量日益增加。这种数据的丰富性和多样性为测井解释提供了新的机遇。本研究拟借鉴大模型相关技术,并结合测井数据自身的特点,利用大规模无标签测井数据,探索构建高效、鲁棒的测井资料通用表征模型及其下游任务适配的方法,该模型能够在不同井位和地质条件下具有良好的泛化能力,还能够为多种下游任务提供高质量的特征表示,为油气勘探领域带来更高效、更准确、更经济的解决方案。

国内外研究现状

传统的测井解释方法侧重于从领域知识中建立解释模型,在石油勘探工程中得到了广泛应用,并为智能岩性识别方法奠定了基础。然而,传统方法形式较为简单,无法有效处理测井与解释任务之间的复杂非线性关系。此外,传统的测井解释方法高度依赖专家的经验,因此主观性强,效率较低。近年来,国内外学者开始研究测井数据的智能应用,以挖掘其蕴含的价值。测井数据的智能研究在国际岩石物理学家与测井分析家学会(SPWLA)年度论文中的占比逐年增大,取得了若干长足进展。例如,通过机器学习算法构建含气饱和度预测模型,以及通过深度学习提高复杂岩性的测井自动解释可靠性等。测井知识图谱的构建及其智能识别方法成为研究热点。通过知识融合技术,实现非结构化知识成果与结构化数据的深度融合,提高油气层测井知识的融合效率。同时,油气层智能识别新模型的开发,如基于深度神经网络的岩性识别,为测井解释提供了新的技术手段。

与传统的机器学习方法相比,深度学习模型能够从海量数据中自动地提取特征。安鹏等人[1]选取5种测井参数、陆相-海相指示及相对位置两种地质约束作为输入变量,对深度神经网络进行训练,获得了理想的预测精度。Liu等人[2]为了提高层序的建模能力,提出了一种基于双向门控循环单元和条件随机场层(Bi-DirectionalGated Recurrent Units and Conditional Random Field Layer, Bi-GRU-CRF)的岩性层序分类算法,其将支持向量机(Suppont Vector Machine,SVM)的概率输出向量与原始数据拼接输入到 Bi-GRU-CRF中,得到SVM+Bi-GRU-CRF结构。实验结果表明,SVM+Bi-GRU-CRF与其它算法相比,其性能更优。Zhu等人[3]对测井曲线进行小波分解,从而将测井曲线构造成二维灰度图像并输入卷积神经网络,将测井岩性识别任务转换为图像分类任务,该方法的性能在大庆油田的实际数据集上得到验证。武中原等[4]人基于长短期记忆神经网络(LongShort-TermMemory,LSTM)对岩性沉积序列特征进行学习,在此基础之上,通过提取测井参数承载尺度以及岩性沉积模式信息,完成岩性序列和测井序列的总体匹配。

上述基于机器学习的测井解释研究均为监督学习方式,即模型的训练需要大量有标签数据,然而,在石油探勘中,有标签的样本数量往往是不足的。因此,有必要借助无标签数据来构建测井解释模型,提升模型的性能。基于此,Dunham 等人[5]应用了标签传播和自训练两种半监督学习算法,并与三种常用的有监督算法在岩性识别任务中进行性能比较,探讨半监督算法的性能。实验结果表明,如果满足标签传播算法的假设条件,自训练算法与标签传播算法相结合性能优于有监督算法。同样,Li等人[6]也采用了标签传播的思想,具体而言对于无标签的测井数据集,利用K-Means聚类方法,选取k个测井样本,查询其真实标签。在此基础上,结合数据在特征空间和地理空间的相似性,采用图半监督学习方法进行标签传播,最后,采用加权支持向量机算法进行岩性识别。实验结果表明,利用未标记数据可以提高识别性能,特别是少数岩性类的识别性能同时也验证了特征相似性和深度相似性所提供的信息有助于岩性识别。

尽管上述方法在特定任务上取得了不错的效果,但正是由于上述测井解释模型是针对特定工区和任务进行设计和训练的,模型在训练过程中可能会过度拟合特定数据集的特征,未能学习到更为普适的地质规律和特征。这导致模型在面对新井位或未见过的地质条件时,表现出较大的不确定性和误差。同时,模型只能处理特定任务,后续任务或工区也需要重新训练和调优模型,导致资源浪费和开发周期延长。此外,测井数据规模庞大[7],并且随着勘探过程的持续进行,原始数据和成果数据、老数据和新数据不断积累,数据量日益增加,现有的方法很难充分利用这些历史数据。近期,大型语言模型在文本处理方面取得了前所未有的成功,多模态模型也在图像、视频和语音等多种数据类型的处理上展现出巨大的潜力。这些经过大规模无标签数据自监督预训练的模型展示了显著的泛化和多任务迁移学习优势,能够在多种任务和领域中实现知识的有效迁移和应用,这为测井解释提供了新的思路。

目前对预训练测井解释模型的研究还处于起步阶段,近期有报道称中国石油的研究团队通过收集和整合多个油田的测井数据,构建了一个大规模的无标签数据集,并在此基础上进行了自监督预训练得到预训练模型,对下游任务进行了微调验证其性能,实验结果显示,模型在新井位和未见过的地质条件下的表现显著优于传统的特定任务模型,大大减少了重新训练和调优的时间和成本。然而,不同于文本图片等领域,测井解释预训练大模型的构建尚还面临着以下挑战:一是测井数据的采集成本较高且标注复杂,采集回的数据还具有多解性和不可验证性的特点。二是测井数据类型非常多样化,处理这些不同种类、不同版本、不同结构的数据本身就充满挑战。三是测井数据本身具有高度的非线性和非均匀性,缺乏专为测井数据设计的网络结构和训练方法。四是标签数据的稀缺也导致了下游任务适配面临挑战,无法直接使用现有的微调适配方法。这些挑战亟需学术界和工业界的共同努力,通过跨学科合作和技术创新,逐步解决这些问题,推动测井解释预训练大模型的发展和应用。

参考文献

  1. [1]王泳胜 and 李佳子, “ 大数据技术在油气地质勘探中的应用分析 ,” 石油石化物资采购, no. 7, pp. 121–123, Jan. 2023.
  2. [2]武中原, 张欣, 张春雷, and 王海英, “ 基于LSTM循环神经网络的岩性识别方法 ,” 岩性油气藏, vol. 33, no. 3, pp. 120–128, Jun. 2021.
  3. [3]Z. Liu, “A lithological sequence classification method with well log via SVM-assisted bi-directional GRU-CRF neural network,” Journal of Petroleum Science and Engineering, 2021.
  4. [4]Z. Li, “Semi-supervised learning for lithology identification using Laplacian support vector machine,” Journal of Petroleum Science and Engineering, 2020.
  5. [5]M. W. Dunham, A. Malcolm, and J. K. Welford, “Improved well log classification using semisupervised Gaussian mixture models and a new hyper-parameter selection strategy,” Computers & Geosciences, vol. 140, p. 104501, Jul. 2020.
  6. [6]L. Zhu, H. Li, Z. Yang, C. Li, and T. Ao, “Intelligent Logging Lithological Interpretation With Convolution Neural Networks,” Petrophysics, vol. 59, pp. 799–810, 2018.
  7. [7]安鹏 and 曹丹平, “基于深度学习的测井岩性识别方法研究与应用,” 地球物理学进展, vol. 33, no. 3. pp. 1029–1034, 2018.