阐述了大模型技术的概念,总结了大模型技术的国内外研究现状,综述了大模型在垂直领域的应用现状,梳理了油气行业大模型应用面临的挑战,并对油气行业大模型应用进行了展望。现有大模型可粗略分为3类,即大语言模型、视觉大模型和多模态大模型。油气行业大模型应用刚刚起步,部分油气企业基于开源大语言模型,利用微调、检索增强等方式发布大语言模型产品,部分学者尝试利用视觉/多模态基础模型研发面向油气业务的场景模型,还有少数学者构建地震资料处理解释、岩心分析等领域的预训练基础模型。油气行业大模型应用面临数据量和数据质量难以支撑大模型训练、研发投入成本高、难以实现算法自主可控等挑战。油气行业在应用大模型时应始终聚焦油气主营业务需求,以大模型应用为契机,加强数据全生命周期管理,提升数据治理能力,推动融合算力建设,加强“人工智能+能源”复合团队建设,推动大模型技术自主可控。

关键词:基础模型;大语言模型;视觉大模型;多模态大模型;油气行业大模型;预训练;微调

0 引言

随着深度学习技术和硬件算力的快速发展,深度神经网络模型的参数规模和训练数据量不断扩大。在自然语言处理领域中,研究人员发现通过扩大模型的参数量和增加训练数据,能够增强语言模型的性能和泛化性,甚至出现“涌现”的现象,在一些任务上性能提升很大。这些经过参数量和数据量扩展的语言模型被称为大语言模型(Large Language Model,LLM)。为了进一步将这一概念推广到其他领域,例如计算机视觉领域,斯坦福人类中心人工智能研究所提出了基础模型(Foundation Model)的概念,指代在大量数据上进行训练,且能够适配各种下游任务的模型(一般通过自监督学习算法进行预训练得到)。中国研究人员也提出了与基础模型类似的概念,即大模型,指拥有大量参数、在海量数据上进行训练、具备优秀的数据和任务泛化性的模型。因此,在一定程度上,大模型和基础模型的概念是等价的。

相较于深度学习等传统人工智能技术,大模型表现出泛化性(Generalization)、通用性(Generality)、涌现性(Emergency)3个特征。泛化性是指模型在未见过的数据上的表现能力,大模型的泛化性强,能够适应和正确处理未见过的情况。通用性是指模型处理各种不同任务的能力,大模型具有强通用性,能够在广泛的任务类型上表现出良好的性能,不需要对每个新任务进行特别定制或重新训练。涌现性是指当模型达到一定的规模和复杂度时,能够展示出一些在小规模或较简单模型中未出现的能力或行为。大模型,尤其是一些预训练模型,展现出在少样本学习(Few-shot Learning)和零样本学习(Zero-shot Learning)情境下的强大能力,即便是对于一些没有直接在训练数据中见过的任务,大模型也能够给出合理的回答或解决方案。然而,大模型也存在一些缺点,大模型通常需要巨大的计算资源来训练和部署,可能会编纂和放大数据中的偏见,且在理解某些具体细节或某些领域特定知识时的精确度可能不如专门训练的模型。

中国在国家层面对大模型发展给予了极大的关注和支持,通过政策倾斜和资金投入,大力发展大模型产业。近一年来,大模型已经在法律、医疗、城市建设等多个行业迅速开展垂直应用,并展现出巨大的潜力和价值。随着中国油气资源品质的劣质化,油气勘探开发难度逐渐加大,亟须新质生产力提质增效。大模型为油气行业人工智能应用面临的“小样本”、“多模态数据综合分析”等问题提供了解决方案。本文总结大模型技术的国内外研究现状,综述大模型在通用行业和油气行业的垂直应用情况,探讨油气行业在大模型应用过程中面临的主要问题和挑战,并结合具体实例展望油气行业大模型的应用前景。

1 大模型技术概念及发展现状

虽然目前学术界还没有构建统一的标准来界定一个模型是否是大模型,但是存在一些公认的判定指标,包括参数量、训练数据量、泛化能力和适应性。具体而言,对于参数量,大模型通常拥有数亿到数十亿甚至更大的参数量;对于训练数据量,大模型通常在包含数百万到数十亿样本数的训练数据集(无论训练数据是否有标记)上进行训练;对于泛化能力,大模型能够在多项下游任务上表现出色,超过或接近传统深度学习中的最佳算法,同时在域外数据或任务上也表现良好;对于适应性,大模型通常能够采用少量的数据进行微调,灵活地迁移至新的任务或领域。

根据处理数据模态的不同,可以将现有的大模型分为3类:处理文本数据的大语言模型,处理图像视频等视觉数据的视觉大模型,和能同时处理文本、视觉多种模态数据的多模态大模型。

1.1 大语言模型

大模型最初指的是大语言模型,大语言模型的发展经历了一个漫长且复杂的过程。随着Transformer架构的成功,BERT[1]提出了掩码预测的自监督任务,通过自监督预训练与微调的范式,在多项自然语言处理任务上获得了出色的性能。同时期,OpenAI推出GPT(Generative Pre-trained Transformer)系列模型[2],GPT系列模型采用Transformer Encoder(Transformer编码器)的架构形式,并使用逐个单词(token)生成的方式进行预训练,通过扩大模型参数量至数亿甚至千亿级别,并扩充训练数据量,取得了良好的泛化性能。紧接着,T5[3]提出了Encoder-Decoder(编码器-解码器)的预训练架构,同时通过增加句子前缀,将不同的自然语言处理任务的输入和输出进行了统一。参考上述几类方法的成功经验,后续产生了各种各样的预训练和架构变体,包括国外的Flan-T5[4]和LLaMA[5]等,以及国内的百川[6]和InternLM[7]等预训练大语言模型。

在大语言模型微调方面,提示词微调通过在问题中增加答案的提示词(Prompt),诱导模型输出对应结果,从而实现对各种自然语言处理任务的零样本能力。指令微调(Instruction-tuning)在数据层面构建指令-输出的数据结构,使得模型在微调后能够理解对应的指令,并且拥有很好的指令泛化能力。在此基础上,OpenAI提出了对齐微调(Alignment-tuning),将人类偏好作为奖励,采用强化学习的方式对模型进行微调,使得模型的输出与人类的习惯对齐。思维链(Chain-of-Thought)则是通过将一个复杂任务拆分成多个简单任务,帮助模型输出更精确的结果。为了减少微调带来的训练工作量,通常采用稀疏的方式减少需要调整的参数量,例如LoRA[8]利用低秩近似来降低需要微调的参数量。此外,为了缓解大语言模型的幻觉和知识实时性问题,检索增强生成(Retrieval-Augmented Generation,RAG)技术采用构建外部数据库的方式,让大语言模型在生成相关内容时能够检索数据库的相关内容,从而生成更加精确的答案。

1.2 视觉大模型

视觉大模型的预训练与大语言模型类似,通常采用对比学习(Contrastive learning)和掩码模型(Masked autoencoder)这两类主流自监督方法进行预训练,如EVA[9]和DINOv2[10]等模型。在这类视觉大模型的基础上,通过微调,能够在指定数据集和任务上展现较好的水平。

在预训练层面,除了简单的微调,SAM[11]等模型通过设计数据闭环流程,使用大量部分标注数据对模型在指定任务或领域上进行微调,能够得到在对应任务或领域表现良好的视觉大模型。

在架构层面,为了实现类似大语言模型中的任务大统一,研究者们尝试设计了不同的模型架构,以达到视觉任务的统一表示。这部分架构主要有两类,第1类方法设计了统一任务解码头,以pix2seq[12]为代表。这类方法将视觉识别任务的输出格式统一成自然语言中的token形式,只需要输出不同的token即可实现对不同识别任务的预测。第2类方法为提示学习形式,在给定任务样例的情况下,模型能够根据样例对输入样本进行结果预测,如SegGPT[13]等。

1.3 多模态大模型

多模态大模型一般通过将多个单模态大模型进行对齐和微调而构成。在预训练方面,CLIP[14]采用了图像-文本多模态对齐预训练范式。在其基础上,ALIGN[15]、LiT[16]和EVA-CLIP[17]等网络进一步扩大了训练数据量与模型参数量,实现了更优秀的性能。此外,image-bind[18]和3D-LLM[19]提出将更多的模态特征进行对齐,包括语音、视频和三维点云数据。

在多模态视觉任务微调方面,Diffusion Model[20]与World Model[21]等生成模型将预训练好的大语言模型作为生成提示词进行微调,指导生成的内容。在感知任务中,VisionLLM[22]在统一视觉架构pix2seq的基础上引入大语言模型作为任务指引,并将其特征引入到图像空间,实现了优异的检测性能。此外,在SAM视觉大模型的基础上,Open-Vocabulary SAM[23]将SAM与CLIP进行结合,赋予SAM输出类别的能力。GLEE[24]则将大语言模型的特征输出作为SAM的提示词,引导SAM分割的结果。

在多模态文本任务微调方面,LLaVA[25]与MiniGPT[26]等使用适配器(adapter)的形式,将预训练好的视觉大模型EVA的特征与语言特征进行对齐,从而使大语言模型能够输出图像包含的内容。CogVLM[27]与SPHINX[28]则是在上述对齐的基础上,对大语言模型的解码器部分进行进一步微调,采用pix2seq的方式,使得微调后的视觉-语言多模态大模型能够同时完成文本生成和视觉基础任务(包括检测与分割)。此外,SayCan[29]和RT[30]系列等则将多模态大模型视为具身智能(Embodied AI)的终端,给定任务描述与图像,微调使其直接输出对应的操作(Action)。

2 大模型在垂直领域的应用现状

大模型根据其设计目的、训练数据和应用场景可分为通用基础模型、行业基础模型和场景模型。通用基础模型(L0级)旨在提供广泛的知识和能力,不专注于任何特定的行业或任务,通过在大规模多样化的数据集上进行训练,可以应用于多种不同的任务和领域,如文本生成、语言理解、基本的图像识别等。行业基础模型是在特定行业的数据上进行训练以捕获该领域内的专业知识和特定任务。行业基础模型主要针对特定行业的需求,如医疗健康、金融服务、法律、制造业等,提供更加精准和高效的服务。根据行业特点又可进一步细分,如油气行业可以细分为L1和L2两个等级。通用基础模型和行业基础模型都属于大型预训练模型,一般用来作为预训练骨干网络。场景模型(L3级)是基于通用基础模型或行业基础模型进行进一步的微调和定制,以适应特定场景需求的大模型。

图1为油气行业大模型分级示意图。L0、L1和L2级大模型通常需要超强算力支持,且采用无监督或半监督的训练方式在海量数据(GB/TB级别)上进行训练。对于油气行业,L1指油气行业大语言模型或者勘探、开发、工程、炼化等领域的多模态基础模型;L2指细分领域的基础模型,如岩心分析基础模型、地震资料处理解释基础模型;L3指在L0、L1或L2级大模型的基础上,使用少量行业标注数据进行微调,适配下游任务,得到的面向特定应用场景的具体模型,如岩石薄片智能鉴定模型。

图1 油气行业大模型分级示意图

2.1 大模型在通用领域的垂直应用情况

当前,大模型技术正在与多个行业相结合,推动着这些行业的变革式发展,本文对发展相对较快的自动驾驶、法律、医学、金融、交通和网络安全领域大模型应用现状进行简要分析。

2.1.1 自动驾驶领域

自动驾驶领域中,大模型推动着自动驾驶技术的快速发展。尤其是在感知与场景理解能力、决策能力和仿真能力方面,大模型为自动驾驶技术提供了强有力的支持。

在感知与场景理解能力方面,CAVG[31]组合了多个多模态大模型,并用自动驾驶领域数据集进行微调,具备了在自动驾驶场景进行图文对话和定位(Grounding)的功能。ELM[32]则组合了BERT、EVA和Flan-T5等3个多模态大模型,基于低秩适配(Low-Rank Adaptation,LoRA)技术采用自动驾驶领域数据集进行微调,实现了场景描述、物体定位、事件记忆和预测的多项功能。

在决策能力方面,现有的大多数方法均采用通用大语言模型作为基座模型,在其基础上采用自动驾驶领域数据进行微调,从而获得自动驾驶决策生成器大模型。例如,GPT-Driver[33]、LanguageMPC[34]和DriveVLM[35]等将感知模型的结果和图像作为大语言模型的输入,并通过输入、输出格式化的形式,使得大语言模型的输出更好地转换为驾驶的决策结果。DILU[36]在上述框架的基础上增加了记忆模块,能够记录行驶的经验,从而使大语言模型更好地进行推理和决策。LMDrive[37]和DriveGPT4[38]等则直接将图像和决策序列以Token的形式输入到大语言模型中,得到决策的结果(Action),实现端到端的功能。DriveLM[39]构建了图形可视化问答(Graph visual question answering),通过模仿人类的思考方式,采用多轮问答的形式,逐步获取决策的结果。

在仿真能力方面,大模型主要被用来构建自动驾驶的世界模型,即可预测未来帧图像或者点云数据的模型。例如,GAIA-1与ADriver-I[40]将当前图像和决策作为输入,使用大语言模型与视觉模型将输入转换为token,之后送入扩散模型中生成未来帧的图像。DriveDreamer[41]采用二阶段训练的方式,在第1阶段,使用高精地图、物体包围框和文本作为输入,使用CLIP模型作为编码器、扩散模型作为生成器,生成对应的驾驶场景图像;在第2阶段,将历史决策作为条件,微调第1阶段的模型生成未来帧。DriveDreamer-2[42]则是去除DriveDreamer的高精度图、物体包围框和历史决策等先验输入信息,转而通过文本使用大语言模型生成对应的高精度鸟瞰图与物体包围框,并进一步生成多视图的视频。Drive-WM[43]采用变分自编码器的形式,通过使用相邻视图生成中间视图的方式,一定程度上解决了多视图和多帧视频之间的一致性问题。GenAD[44]通过网络爬虫的方式,使用YouTube视频网站构建了大规模的自动驾驶视频数据集,并采用扩散模型作为预训练模型进行微调,能够同时完成视频未来帧和决策预测。Waabi公司[45]使用预训练好的字典模型(Codebook)作为变分自编码器的编码目标,并结合扩散模型和体渲染的方式生成未来帧的点云。类似地,OccWorld[46]也采用变分自编码器的形式对占位进行token编码和解码。不同的是,OccWorld使用类似于GPT的形式逐个生成token。

2.1.2 法律领域

法律领域中,结合法律知识数据预训练的大语言模型可以用来自动理解案例和法律条文,为普通人和律师提供专业、智能、全面的法律信息和服务。浙江大学、阿里巴巴达摩院和华院计算技术(上海)股份有限公司在Baichuan-7B预训练大语言模型的基础上利用法律知识数据进行二次预训练和指令微调训练,共同设计研发了“智海-录问”法律大模型[47],可以实现法律文书生成和法律服务问答等功能。阿里云发布的通义法睿[48],可以提供法律智能对话,根据案情描述自动总结法律诉求并撰写法律文书,还可以完成法律知识检索和法律文本阅读。LawGPT[49]基于ChatGLM-6B[50],通过使用法律领域的数据集(包括法律领域对话问答和中国司法考试试题等预料)进行微调,提升了大模型在法律领域的基础语义理解能力,增强了大语言模型对法律内容的理解和执行能力。Lawyer LLaMA[51]则首先在大规模法律语料上进行了系统的预训练,并借助ChatGPT收集了法律职业资格考试和法律咨询的数据集,通过该数据集对大语言模型进行进一步微调,让法律大语言模型具备实际应用的能力。DISC-LawLLM[52]是通过构建法律微调数据集DISC-Law-SFT并在通用领域中文大模型Baichuan-13B上进行微调得到的,还构建了评测基准DISC-Law-Eval,用于评测法律大语言模型。ChatLaw[53]则针对不同的法律服务需求,构建了多个版本,包括ChatLaw-13B、ChatLaw-33B和ChatLaw-Text2Vec。其中ChatLaw-13B是基于Ziya-LLaMA-13B-v1微调得到的。ChatLaw-33B基于Anima-33B模型进行训练,进一步提升了逻辑推理能力。ChatLaw-Text2Vec则是使用判决案例数据集基于BERT微调得到的一个相似度匹配模型,能够匹配用户问题与相应的法条。在训练数据集构建上,ChatLaw使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、司法考题和判决文书等原始文本来构造对话数据。

2.1.3 医学领域

在医学领域,大模型应用涵盖了多种场景,如患者服务、医疗服务、医学研究等,在降低医疗行业成本的同时改善和提升医疗领域的服务质量和效率。Wang等[54]公开了一款专为医疗领域设计的中文大语言模型IvyGPT,通过结合高质量的医疗问答实例和人类反馈的强化学习进行训练和微调,提高了大语言模型在特定医疗场景中的应用能力。基于这项工作,Wang等[55]进一步开发了CareGPT,其集合了数十个公开可用的医疗微调数据集和医疗大语言模型。Med-PaL[56]从自然语言处理的预训练大语言模型变体FLAN-PaLM出发,通过在医疗领域开源数据集上进行指令微调获得相应的医学领域模型。ChatDoctor[57]则通过收集700多种疾病的信息,包括对应的症状、医学检查和药物等,并结合从在线医疗咨询网站获取得到的200 000多条对话数据,在大语言模型LLaMA的基础上进行微调,提高了模型在医疗领域的应用效果,并结合维基百科和医疗领域的数据库提高了模型的可信度。DoctorGLM[58]通过使用中文医疗对话数据集对ChatGLM-6B大语言模型进行微调得到,取得了一定的应用效果。

2.1.4 金融领域

金融领域中,专业金融大模型可以在新闻文章的情绪分析、算法交易、风险评估和欺诈检测等活动中发挥作用,有助于做出明智的投资选择和管理金融风险。复旦大学[59]推出了专为金融领域设计的大模型DISC-FinLLM,通过构建高质量金融数据集DISC-Fin-SFT,针对通用领域中文大模型进行指令微调,使其具备金融顾问、文档分析师、财务会计师和时事分析师的能力。

2.1.5 交通领域

交通领域中,利用大模型协同和交互的属性,以及系统协作、内容自动生成等特征,可以提升交通管理的效率和便捷性。LLMLight[60]是针对交通信号控制任务的垂直领域大模型,通过整合大语言模型作为智能体,利用其高级概括能力实现交通信号灯控制。

2.1.6 网络安全领域

网络安全领域也正在着力发展垂直领域大模型,为保护互联网生态系统和应对不断增长的威胁提供新的工具和方法。北京云起无垠科技有限公司开源了网络安全大模型SecGPT[61],可以作为基座模型,用于漏洞分析、溯源分析、攻击判断等各种网络安全任务。

2.2 油气行业大模型应用现状

油气行业大模型应用刚刚起步,主要包括大语言模型、视觉大模型/多模态大模型两个方面的垂直应用。

2.2.1 油气行业大语言模型应用现状

国内外学者尝试以通用基础模型为基座,使用海量油气行业语料库进行预训练,研究发表了油气领域的大语言模型。目前,油气行业大语言模型主要应用在智能助手及问答、数据分析与可视化等方面,并在油气勘探开发一些细分领域开展了探索性研究。

2.2.1.1 智能助手及问答

智能助手及问答方面,需要大语言模型通过分析大量的行业数据、研究报告和市场趋势,为管理层提供决策支持,协助用户完成工程作业。允许用户通过自然语言查询各种行业知识和数据,帮助其解决工作中遇到的技术难题。国内外学者通过共用数据集和私有数据集来进行增量训练,研发基于大语言模型的智能助手和问答技术。

部分国内外学者通过训练维基百科等公用数据集来应用大语言模型。如2023年SPE(美国石油工程师协会)年会上提出的PetroQA[62]、之江实验室研发GeoGPT[63]等。Eckroth等[62]提出了一种可以回答自然语言问题的原型工具PetroQA,使用Petrowiki中的内容让ChatGPT了解石油领域的相关知识,同时约束ChatGPT使其避免幻觉并引用相关知识的来源;同时,他们也正在开发和测试一款新的问答系统GraphQA,用户可以利用该系统搜索由油井、油田、岩石类型等石油领域事实和概念构成的知识库,得到准确的石油领域知识答案。Marlot等[64]为了进一步推进油气领域自然语言处理任务的处理效率与泛化能力,使用无监督多任务学习方法训练大语言模型,收集了33 000份文档,包含外部知识(如维基百科)和内部私有领域知识(如词汇表、技术文档),涵盖石油和天然气领域相关的文章、定义、问答对、技术信息,还从地球科学学科公开可用的Arxivdata数据集中提取了学术文章的摘要,共同构成训练和测试的基准数据。此外,针对特定的石油和天然气领域问答对、提供首字母缩略词的实际单词定义、领域内名词解释任务微调GPT-2基本网络。研究发现,即使是对特定领域数据进行适当微调的较小的大模型,也优于在通用语料库上训练的大型模型。通过这项研究论证了在资源有限的情况下,通过精心挑选多样化数据集,仍然能够构建出高性能的油气领域语言模型。

部分学者在公用数据集的基础上,加入了私有数据集进行增量训练。2022年,圣保罗州立大学(UNESP)基于BERT模型提出了针对石油和天然气领域的大模型PetroBERT[65],PetroBERT使用葡萄牙语石油和天然气领域工件存储库以及私有的每日钻井报告语料库,通过在垂直领域私有数据集上执行命名实体识别和句子分类两项任务对模型进行微调,在两项任务中均展现出了一定潜力。2023年,埃克森美孚公司研究团队认为尽管基础的语言模型包含了广泛的世界知识,但会表现出非工业语言的偏向,因此提出customLLM模型[66],通过引入领域标记提升专业任务的表现性能。模型预训练采用的语料库包含私有资源,例如设备手册、工单以及设备的维护数据,也涵盖了公开的维基百科数据等,并添加有关的物理和化学名词解释。为了增强customLLM的学习能力,该团队还整合了维基百科的外部知识,侧重使用的材料、基本设备信息以及石油和天然气行业相关的概念,涵盖了重要的物理和化学原理,为模型赋能行业知识。模型训练方面,customLLM采用基于分块决策的掩码语言建模,在预训练过程中充分利用数据,每个块之间又应用了数据重叠,确保组块之间的叙述流畅性,再通过以聚类和文本生成两种任务融合的微调步骤使得模型理解设备数据的领域特征,进而提高自然语言理解能力。Kumar等[67]利用具有超过1 000×108个参数的大语言模型,通过微调和使用各种即时工程策略,完成了实体识别、信息提取、摘要等文本处理任务,并用于油气领域钻井活动产生的大量非结构化文本数据,克服了其审查和解释困难的问题。

2.2.1.2 数据分析与可视化

数据分析与可视化方面,大模型可以辅助做数据分析与可视化,包括BI报表(Business Intelligence Report)和数据分析等方面。

大模型辅助的BI报表分析是大模型在数据分析与可视化方面的典型应用。部分企业和学者利用Text2SQL(Text to Structured Query Language)技术将自然语言文本(Text)转换成结构化查询语言(SQL)的过程,实现大模型辅助的报表查询、分析和展示。石油和天然气行业会产生大量来自不同来源的数据,如地震调查、测井日志、钻井报告等,这些数据被存储在关系型数据库或非关系型数据库中。然而,要搜索相关数据记录,需要最终用户熟悉数据库查询语法和模式定义,这是一项具有挑战性的任务。部分学者[68]研究提出一种使用自然语言与O&G数据库进行交互的新框架:在多任务设置中训练了一个文本到文本的转换器(T5),将自然语言转换为结构化查询语言(Text-to-SQL)作为主要任务,同时以查询上下文分类和段落上下文分类作为辅助任务;提出一种将SQL转换为自然语言任务(SQL-to-Text)的数据增强方法,并通过结合字符串和音素相似度算法实现了基于数据库的查询歧义消解和拼写校正。Singh等[69]提出利用大语言模型建立会话式人工智能聊天机器人,通过训练使该机器人可以回答与钻井和生产监控相关的问题、查询数据集、诊断分析,并能生成建议以改善运营。借助Text2SQL等技术,可以通过语言或者语音对话的方式,快速查询分析历史报告数据。

数据分析方面,主要是利用大语言模型进行数据的实时查询和综合分析。Yi等[70]提出将油井施工作业中的大量数据收集到一个公共数据库,对数据集进行相应的预处理,并送到云端平台学习生成式预训练转换器,最后将学习得到的模型集成到数据平台中,协助工作人员快速查询数据。2024年沙特阿拉伯通信技术与信息科技展(LEAP)上沙特阿拉伯国家石油公司公布了2 500×108参数量的油气行业大语言模型Aramco Metabrain[71],该模型使用7×1012个数据点进行训练,收集了沙特阿拉伯国家石油公司超过90年的历史数据,能够分析钻井计划、地质数据、历史钻井时间和成本,并推荐最理想的油井方案,同时该模型还能为成品油提供包括价格趋势、市场动态和地缘政治洞察力在内的精确预测。

2.2.1.3 细分领域应用

大语言模型与油气勘探开发业务深度融合是大语言模型发展的主要方向,部分学者围绕这方面已开展了相关探索。

储层表征方面,部分学者[72]结合统计方法和机器学习研究针对碳酸盐岩储层的岩石类型划分方案,并将GPT4等大语言模型应用至地质文本描述中,从非结构化文本中提取了有价值的地质参数,促进了地下储层中的岩石类型划分和渗透率预测。同时,自然语言处理(NLP)技术、问答模型和半监督序列标注的结合为地质数据分析提供了全面且高效的解决方案。

地质建模方面,在石油和天然气工程中创建地质模型是十分重要的,这些模型可以被用于模拟储层中的流体流动,预测生产性能,并优化生产策略。因此,建立准确的地质模型对于成功的储层管理至关重要。然而,建立地质模型通常涉及一系列严格的数学物理模型,例如,用于提供地下属性准确估计的全波形反演(FWI)技术。大语言模型,尤其是ChatGPT,展现出了强大的分析能力。为了将ChatGPT等模型应用于石油和天然气工程的地质建模,Ogundare等[73]使用思维链(chain of thought)[74]的方式,引导ChatGPT生成连续性方程和动量方程,并使用有限差分方法来离散化对应方程,给出了不错的建模方案。然而,ChatGPT仍存在局限性,例如在执行实际计算时,经常给出具有偏好性的非平凡解。

数值模拟方面,油气储层预测常使用数值模拟方法。然而数值模拟计算成本高且周期长。随着机器学习的发展,基于机器学习的数值模拟方法被用于油气储层预测中。随着大模型技术的出现,部分学者提出了一种面向油气储层预测的基础模型[75],该模型使用大量的模拟变量,从而实现在数值模拟研究中的较强数据迁移能力。

预测性维护方面,一些研究聚焦于利用物联网、人工智能和机器学习,特别是大语言模型,在石油与天然气炼油厂中提升预测性维护能力。预测性维护通过无线传感器收集数据,运用机器学习算法分析设备状态,实现快速、明智的决策制定,显著提升运营效率。随着行业对预测性维护需求的提升,传统方法面临挑战,而云计算和生成式AI等新技术为行业注入新动力。Saboo等[76]介绍了Amazon Monitron等新型方案,结合无线传感器和机器学习云服务,实现精准监测和预测性维护,减少非计划性停机时间。生成式AI通过自然语言聊天界面快速给出维护建议,延长设备寿命,降低维护成本。然而,资金限制和技术整合复杂性仍是行业发展的障碍。

2.2.2 油气行业视觉大模型/多模态模型应用现状

相较于大语言模型,视觉大模型和多模态大模型具有强大的图像处理和分析能力,能够从岩心图像、物探图像、成像测井图像、遥感图像等多种图像/视频中提取关键信息,在油气领域具有更广泛的用途。目前,国内外学者已经开展了在油气领域应用视觉大模型/多模态大模型的探索研究,主要集中在油气勘探、油气生产管控等任务上。

油气勘探方面,中国石油勘探开发研究院FalconCore团队以SAM为基础模型,在薄片、扫描电镜、CT等标注过的岩石图像上进行微调,研发岩石图像实例分割大模型,支撑了FalconCore的薄片智能鉴定、扫描电镜孔缝分析等工作[77-79]。该团队还在LLaMA的基础上微调构建电成像测井图像智能修复模型[80],在空白条带占比大的情况下,修复效果明显优于Filtsim等传统修复算法。张东晓团队提出的RockGPT[81]利用条件生成模型从单个二维切片重建三维数字岩石,进而获得三维数字化多孔结构,有利于研究油藏或地下含水层中的孔隙尺度流动。Sheng等[82]收集了大量地震数据体,通过自监督学习来预训练基于Transformer的地震基础模型(Seismic Foundation Model,SFM),训练得到的基础模型可以应用于下游地震相分类、地震地质体分割、反演等任务。在油气领域中,通过SFM可以更高效、准确地解析大量地震数据,提取关键特征,进而可以提高油藏勘测准确率和优化钻井钻探决策。Zhang等[83]针对岩性识别问题,对400 m连续取心图像做预处理,构建了十万/百万级别训练样本,从而识别24种岩性,还提出了基于Multiscale Vision Transformer (MVIT-V2)等大模型架构的厘米级别识别方案。传统的语义分割模型严重依赖于大规模的标注数据集,尤其是对于复杂的CT和SEM岩石图像。SAM则具有一定的零样本分割能力,同时也满足了储层建模中对高精度分割的需求,这对于只有有限数据和具有复杂图像特征的数字岩石物理学研究非常重要[84]。RockSAM[85]利用微调的SAM解决了零样本数字岩石图像分割问题。具体而言,SAM模型在应用于数字岩石图像时,由于其特征对比度较低导致分割结果出现一定的局限性,为了解决这一问题,RockSAM对SAM进行了微调,产生了RockSAM的变体,该变体提高了数字岩石图像的分割精度,同时不牺牲其零样本学习能力。这种调整确保了RockSAM的有效性,为数字岩石图像分析提供了一个高价值的工具。除此之外,RockSAM在生成高质量分割掩模方面也表现出显著的效率,克服了对复杂标注数据的需求,用最少的人工干预和数据进行学习和适应,不仅提高了数字岩石图像分析的准确性,而且预示着基础模型在石油和天然气行业的成功应用。

油气生产管控方面,中国石油勘探开发研究院联合中国石油西南油气田数字智能技术分公司在多模态大模型CLIP的基础上进行微调,适配变化检测下游任务,构建基于无人机的油气管道地质灾害监测模型。Wu等[86]基于SAM提出了一个复合溢油检测框架SAM-OIL,由对象检测器(如Yolov8)、SAM和有序掩码融合(OMF)模块组成,使用Yolov8获取溢油相关对象的类别和边界框,然后将边界框输入经调整的SAM以检索与类别无关的掩码,最后采用OMF模块来融合掩码和类别,可以用于海洋石油泄露检测任务,及时发现泄露情况并协助补救。Liu等[87]提出了一种基于SAM使用自适应技术的精确自动漏水分割方法,可用于油气领域盾构隧道漏水检测任务,提高了检测效率和可靠性,简化了隧道维护。

3 油气行业大模型应用面临的挑战

大模型发展的核心要素包括数据、算力和算法。大模型训练是一项非常复杂的系统工程,体现在3个方面。①训练所需的数据量大:大模型需要大量的高质量训练数据来提高模型的准确性和泛化能力;②对算力和算法要求高:大模型的参数量通常达到数十亿到数百亿,需要海量的训练来调整这些参数,因此需要强大的算力和优化算法来加速训练;③训练时间长:大模型训练需要数天、数周甚至更长的时间,长时间的训练会使调试和优化变得困难。表1展示了目前几个典型大模型训练时用到的数据量、算力和训练时长。比如,LLaMA1(65 B)模型使用预训练数据1.4 TB tokens,硬件资源为2 048块80 G显存的A100,训练时间21 d;PanGu-Σ(1 085 B)模型使用预训练数据329 B tokens,硬件资源为512块Ascend 910,训练时间100 d。

油气产业链条长,业务面广,专业性强。油气领域在发展行业大模型方面相较于传统领域展现出一些特殊性。首先是数据复杂且存在异构性,油气行业数据涉及地质勘探、钻井、生产、运输等多个环节,数据类型多样,要求大模型能够处理高度复杂且异构的数据集。其次是专业知识密集,油气行业具有极强的专业性,涉及到地质学、油藏工程、化学工程等多个学科,因此,大模型需要融入丰富的专业知识图谱,以确保模型输出的准确性和可靠性。鉴于这些特殊性,油气行业应用人工智能大模型面临诸多挑战和问题。

①数据量和数据质量难以支撑大模型的训练。油气行业的数据大都来自地下,具有多解性、不可验证性,样本小,标签数据获取困难。同时,大模型需要学习海量数据,但油气行业对于数据的安全性、保密性要求较高,普遍面临数据“孤岛”问题。因此,如何在确保油气行业数据不上公有云、不泄露的前提下,整合数据,训练行业基础模型,成为油气行业大模型应用的一项关键挑战。

②研发投入成本高。大模型通常需要大量的计算资源和数据来进行训练和优化,这往往需要相当高的投入成本。如果要训练一个10×108级参数量的地震处理解释基础大模型,预估需要1 TB的各类地震数据,制作尺寸为4×4的tokens总量约105×104,总算力需求约为840×1012 Flops(每秒浮点运算次数)。目前国内油气行业部分具备微调的算力,但普遍不具备训练行业基础模型的算力。同时,由于英伟达GPU(图形处理器)的限购政策和国内外芯片行业的差距,国内油气行业很难短期内建成大模型所需的算力。同时,国产芯片和大模型使用的CUDA(Compute Unified Device Architecture,统一计算设备架构)等主流框架不兼容,导致部分大模型算法无法适配国产芯片。除了算力投入外,大模型训练还会产生较高的电费、网络费用等运行成本和高昂的研发投入。

③油气行业很难实现大模型算法的自主可控。大模型相较于深度学习等算法的门槛更高,目前这一轮大模型的发展很大程度上是由少数高端算法人才推动的。国内已发布的油气行业大模型大部分存在组装和套壳现象,面临可能出现版权纠纷、核心算法不可改动等问题。已有大模型算法可分为开源和闭源算法。开源算法具有较高的透明度和灵活性,油气行业可以在开源算法的基础上根据业务需求进行进一步研发。然而,开源算法可能缺乏必要的技术支持和安全保障,可能导致商业机密泄露的风险。开源算法的能力也远低于闭源算法,当前业界口碑较好的开源算法大模型基本均处在GPT3.5的水平,包括LLaMA2、Mistral 8x7B、ChatGLM-6B和GLM-130B等。此外,很多开源算法在版权协议中有很多限制条款,这也导致油气行业基于开源算法研发时可能会面临版权纠纷。如果使用闭源算法,则很难做到核心算法自主可控。

④国内油气行业在大模型应用上存在“盲目跟风”现象。中国大模型研发呈现“百模大战”现象,一定程度上干扰了油气行业大模型的发展战略。中国现在有超过100个大模型,短短1年时间内油气行业也陆续发布了多个大语言模型。然而,壳牌、雪佛龙、bp、道达尔、斯伦贝谢、哈里伯顿等国外公司至今尚未发布大模型产品。

⑤油气行业大模型概念混淆。人工智能大模型指的是拥有数亿乃至数万亿参数量的深度学习模型,如Transformer架构的语言模型、图像识别模型等。其核心在于通过海量数据的训练,实现对复杂模式的学习和知识的内化。油气行业通常使用的模型实际上主要是复杂的地质模型,这些模型是基于地球物理、地质学、油藏工程等多学科数据构建的,旨在模拟和预测地下油气藏的分布、结构、流体行为等。这类模型对于指导油气田的勘探部署、开发方案设计及生产优化具有重要作用,其“大”更多体现在模型的复杂性和涵盖的广阔地理空间上,而非参数量级。

4 油气行业大模型应用展望

油气行业大模型应用虽然面临重重挑战,但仍亟须加快推进。油气行业大模型应用首先要充分认识大模型。大模型不是万能的,一个模型不能解决油气勘探开发的所有事情。不能期望大模型会在各个领域超过或替代传统深度学习,应该以业务需求为导向,以解决具体问题为准则,研发面向油气特定分析应用的模型。在逐步积累的基础上,具备条件后研发一个满足多种应用需求的大模型。

①油气行业在应用大模型时,要始终聚焦油气主营业务需求,以解决实际问题、创造业务价值为核心,应避免陷入通用基础模型的技术竞赛。大模型(尤其是预训练大模型)的核心理念是通过少数人集中训练一个强大的基础模型,然后由广泛的用户群体在各自特定任务或场景下,只需使用少量标签样本进行微调,就能获得相当好的性能。油气行业大模型应用的重点应放在微调和适配下游任务上,不适宜研发L0级的通用基础模型,建议自主研发L3级的场景模型和部分数据质量好的L2级行业基础模型,确保技术栈的自主可控。对于L1级行业基础模型和部分数据量大、训练时间长、算力要求高的L2级行业基础模型,建议在保证数据安全的前提下,借助外部算力和算法构建行业基础模型,并从数据质量、算力支撑、投入产出等方面充分论证可行性。比如,对于大语言模型,国内外已陆续推出了多款油气行业大语言模型。油气行业应秉持资源优化配置的原则,将核心聚焦在油气主营业务上,从投入成本、产出效益、技术成熟度和稳定性、行业聚焦以及核心竞争力等方面慎重考虑,并充分论证是否自建大语言模型。

②以大模型应用为契机,加强数据全生命周期管理,提升数据治理能力。首先,要从数据采集源头上加强数据质量管控,通过软硬件结合的方式确保数据的自动、规范采集。其次,通过数据清洗、数据融合和匹配、数据完整性增强等方式提升数据质量。然后,组织权威专家进行数据标注,构建大模型训练所需要的标签样本库,并严控标注质量。同时,引入行业先验知识约束进行数据增强、联邦学习和小样本-零样本学习,以此开发适用于针对性场景任务应用的下游模型。最后,通过数据脱敏、数据加密、访问控制和审计、合规性审查等方式加强数据安全和隐私性保护。OpenAI用于训练大模型的中文数据来自互联网,且为通用数据,数据质量比油气行业的数据好,但仍然做了很多提升数据质量的工作。油气行业大模型应用首先要做的基本工作是提升数据质量,构建大模型应用所需要的高质量数据集和标签样本库。通用行业大模型的繁荣发展很大程度上得益于ImageNet等开源数据集。因此,在确保数据安全和行业隐私的前提下,构建一批高质量开源数据集,推动油气行业大模型研发生态建设。

③以油气大模型为契机,推动融合算力建设。建设方式可采用租赁与自建相结合的混合模式。企业应根据自身业务需求、成本预算和技术实力,灵活选择算力获取方式。对于常规的计算任务,可通过租赁公有云资源快速响应;而对于涉及敏感数据或需长期稳定运行的任务,则可考虑自建或合作共建数据中心,确保数据安全与算力的可持续供给。统筹考虑通算、智算、超算设施建设规划,突出打造以智算为重点的融合算力设施建设。通算满足日常运营的基本计算需求,智算侧重于深度学习、机器学习等智能算法的高效执行,超算则针对大规模科学计算和复杂模拟。

④以大模型应用为契机,加强“人工智能+能源”复合团队建设,推动大模型技术栈自主可控。国外通用基础模型的发展模式是“大型互联网企业+创业公司”,比如微软和OpenAI、谷歌和DeepMind、亚马逊和Anthropic等。相比于国内的“百模大战”,国外大模型产业的发展更趋于理性,更注重联合研发生态的建设。大模型是一种以大数据、强算力和先进算法为基础的新兴技术,油气行业大模型应用不应“单打独斗”,要与IT企业、高校等构建联合研发生态。通过项目合作、人才培养、共建研发平台等方式加强大模型算法等方面的合作交流,并明确合作目标与分工,以及知识产权分配与管理、数据保密和隐私保护等制度和规范,以确保生态的健康、有序、高效运行,推动大模型在油气行业的深度应用与创新发展。

5 应用实例

大模型具备多模态数据的综合分析能力,利用大模型技术有望于将岩心描述、测井曲线、地震图像等多模态数据进行综合分析。短期内可挑选数据基础良好、在深度学习方面有一定基础的场景,通过预训练基础模型或者基于通用基础模型微调等方式,进一步提升原有模型的泛化性、通用性。未来可将多种模型进行级联,以岩心为标定,利用多模态大模型实现岩心、测井、地震等数据的综合分析。按照逐步训练的原则,先逐个训练单一模型,然后把单一模型级联,逐步构建油藏级大模型。

本文通过两个实例来说明近期大模型的应用过程和方法。第1个是以地震资料处理解释基础模型为例,阐述行业基础模型的构建方法。Sheng等[82]提出的SFM(Seismic Foundation Model,地震基础模型)的构建方法如图2所示。第1步是数据收集,使用从全球192个三维地震工区中收集的不同地震数据集;第2步是数据准备,从收集到的地震数据集中精心挑选了2 286 422个二维地震数据,通过大量未标记地震数据的自监督训练策略构建预训练数据集,并通过数据清洗、均衡分布等方式提升数据质量;第3步是构建预训练基础模型,根据地球物理数据的特点选择无监督生成式学习结合Transformer架构进行训练,考虑到计算代价和训练时间,选取了掩码策略的MAE(Masked Autoencoders,掩码自编码器)方法来训练地震基础模型。在SFM的基础上利用少量标签数据,适配分类、分割等下游任务,可研发地震相分类、初至波拾取等场景模型。实验结果表明基于SFM微调的效果要明显优于传统深度学习。

图2 SFM模型构建及应用[82]

第2个是以岩心图像智能分析为例,阐述基于大模型的微调方法和应用。笔者团队开展过两方面的探索研究。一方面是基于开源视觉大模型SAM的岩石图像分割技术。实例分割是岩石图像智能分析常用的技术,基于传统深度学习的方法需要针对不同数据类型构建不同的模型,泛化能力差。如图3所示,笔者团队在SAM的基础上,利用薄片、电镜、CT等岩石图像标签数据进行微调,构建岩石图像实例分割大模型。该模型在各类岩石图像数据上分割效果良好。该应用实例体现出了大模型在泛化性、通用性方面的优势。

图3 基于SAM的岩石图像实例分割大模型网络架构

另一方面是基于多模态模型实现自然断面扫描电镜图像智能分析,该应用实例体现的是大模型的涌现性。目前自然断面扫描电镜(SEM)图像分析仍停留在人工定性分析的阶段,分析结果的准确性严重依赖于研究人员的水平,耗费大量人力,却难以得到定量统计结果。人脑能直接理解自然断面图像所蕴含的立体、多维度信息,但难以用少量图形学参数来简单描述。同时,由于自然断面SEM图像无法实现组分轮廓线的准确标注,因此无法用图像分割、目标检测等传统深度学习网络实现智能鉴定,大模型技术的出现为自然断面SEM图像的智能分析提供了可能。

笔者团队研究提出一种基于多模态大模型Ferret的自然断面SEM图像智能分析场景模型RockSE-Ferret。考虑到自然断面二次电子SEM图像具有“微浮雕”的特点,呈现出一定的三维效果,因此很难确定孔隙和黏土矿物的轮廓边界,难以准确标注某些岩心结构特征或某些视觉特征的精确位置。此外,在赋存状态方面,黏土矿物主要出现在经过风化、蚀变的地层中,表现为充填式、衬垫式和搭桥式,形态多样,包括书页状、片状、丝状等,有时会出现混合和交叉,很难通过检测框来精准区分。苹果公司研发的多模态大模型Ferret在区域指定任务、区域定位任务、文本区域结合任务中具有出色的效果,能够满足自然断面SEM图像这一复杂场景理解的业务需求。因此,笔者团队选用Ferret作为基础模型研发自然断面SEM图像智能分析场景模型RockSE-Ferret。

首先,构建岩心SEM成像指令微调数据集RockSE-GRIT,此数据集包含物体、物体间的关系、特定区域的描述、基于区域的复杂推理、鲁棒性5个方面的标注内容,并构建了相关的问答对。其中前3个方面由专家标注实现,复杂推理和相关问答对的构建采用ChatGLM3等大语言模型实现,鲁棒性是通过在数据集中添加负样本来实现。其次,笔者团队在基础模型Ferret上利用专业领域指令微调数据集RockSE-GRIT微调模型。通过指令微调,使模型理解和处理SEM图像数据及其相关的文本描述信息,适配下游任务。最后,RockSE-Ferret通过场景理解,实现对黏土矿物、孔隙及裂缝的立体分布、颗粒的立体形状等特征的智能识别,如图4所示。

图4 基于场景模型RockSE-Ferret的自然断面SEM图像智能分析

6 结语

在过去的几年中,人工智能技术已经从专门的应用和有限的能力迈进了一个全新的时代—通用人工智能(AGI)时代。这一跨越得益于大模型的发展,大模型逐渐成为推动新质生产力发展的关键动力。中国大模型产业正面临“百模大战”的局面,相较于美国,中国大模型产业的核心竞争力是“大模型+实体产业”。大模型的行业应用展现出巨大潜力,但技术路线也尚未成熟,落地应用面临诸多困难和挑战。油气行业大模型应用要保持理性,要充分认识油气行业大模型的特殊性,从数据、算力、算法等方面夯实基本功。油气行业大模型应用要稳步实施,要始终以油气业务需求为主导,切忌盲目跟风。

参考文献:

那么,如何学习大模型 AGI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-


👉AGI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐