近期诺贝尔物理学奖颁发给AI科学家John J. Hopfield、Geoffrey E. Hinton,让许多人感到诧异。当获奖电话打到加州时,Hinton教授正像往常那些平凡的下午一样,准备去一个廉价酒店做核磁共振,或许平凡中就蕴藏着杰出,正如人工智能以润物细无声的方式进入千行百业和人类生活。
人工智能从1956年概念提出开始,经过了几起几落;而今大模型似乎摸到了AGI门口,各界摩拳擦掌都在尝试用这项新技术推动行业变革,颠覆地提升生产力。本文尝试从生产力要素的视角,思考大模型技术如何帮助电力行业进行生产力提升。
回顾Hinton2007年在《科学》上发表题为Reducing thedimensionality of data with neuralnetworks的论文,该篇论文是公认的深度学习里程碑,但在2007-2010年期间每年引用次数仅为100次左右,无人无津;同时期,2007年李飞飞启动ImageNet项目, 2011第二届图像识别竞赛提交13份,而上一届是35份;彼时Nvidia的GPU已经通过CUDA改造初获成功。算力+算法+数据三驾马车的加持下,2012年Hinton带队开发AlexNet参加ImageNet第三届,一举将错误率从上一届的25%降低了11%,高出第二名41%,深度学习技术路线至此获得各界认可,得以蓬勃发展。从这里我们可以总结:AI就是关于三驾马车的事。
鼎点娱乐
过去十年, GPU算力持续发展下,但人工智能算法变成了瓶颈,深度学习例如RNN在面向文本等任务时无法并行训练等问题,模型参数规模和训练数据规模遇到瓶颈。
从下图可见,从2013年开始解决这些问题的基础技术已经陆续具备,大模型诞生水到渠成。而为什么是OpenAI?OpenAI的GPT成功做对了什么?简单说就是在前人(主要是Google做了嫁衣)的基础上做了集成创新,选对了方向:利用模型来做序列化概率预测任务(即预测下一个Token),实现AI能力迁移学习能力和多任务的泛化性。
在思考大模型给行业和人类生活带来改变之前,我们应该思考的是大模型本身技术能力是什么。笼统来说,大模型能力包括:语言理解和表达能力、知识压缩能力以及逻辑推理能力。类比人类,前两者让大模型可以实现记得住、看得懂,已经比较成熟;推理能力是会思考,是最重要的能力(通往AGI的钥匙),不过目前还有较大短板,OpenAI 最新发布的o1就是为了提升这个能力。
人类最大的技能是会使用工具。回顾几次工业革命发展,都是围绕使用新技术开发出更好的工具来赋能人类的能力,例如望远镜赋能眼、汽车飞机赋能脚、纺织机赋能手、计算机赋能脑等等,这些工具本质上来讲是人类将目标任务的工作规则,通过硬件或软件的方式让工具实现自动化或半自动化,实现生产力跃迁(对应下图中的模式二)。
而那些未能进行这些改造升级的劳动项目分为直接劳动型(对应模式一)和间接劳动型(对应模式二)。这两种生产模式依然需要人来完成,本质上都是在现有技术条件下还未能实现自动化的工作,需要靠人与环境、与其他人进行信息交换,这个过程通常包含信息检索获取、信息分析加工和信息决策,最后在物理执行阶段依靠人根据作业过程的反馈来持续作业,无法被机器替代。
(3)物理世界未提供自动执行的“API”接口或者未具备与环境协同作业装置。
第(3)点可以理解为何当下各种机器人产业如火如荼,除了当前已经出现的扫地机器人、AGV和工厂机械臂的初级版,未来具身智能保姆机器人、自动驾驶虚拟司机、搬运机器人,以及更多不需要具身的其他换进感知智能机器,这些工作都是为了模式一和模式三提供物理执行阶段的装置,可以说解决模式一的问题就是造更智能的机器。
在讲(1)(2)制约之前,我们详细展开模式三分析一下,对脑力劳动者的工作进行拆解,看看其中的劳动性质。除了临时交办事项,核心的工作可以分为四类工作:资料收集、信息分析、决策制定,任务督办。这个过程中会有大量的人与外界系统(计算机系统、物理世界和人等)进行的信息交换、群体的大量讨论分析并迭代、任务过程的信息收集跟催和任务迭代等等,这些工作之所以还无法自动化,核心的原因就如上所述存在的(1)(2)的问题。而(1)(2)恰好属于大模型擅长解决的领域,能够为脑力劳动者提供更多的脑力智能来提升、甚至替代,从而提高劳动的效率和效果。
电网行业是电力系统的骨干,承担着将电能从发电站输送到千家万户的重要任务,包括输电、变电、配电和用电等关键环节。为了高效地开展这些业务,企业内部通常会设立发展、基建、调度、运检、营销、配电、物资等多个部门,以确保电力系统的稳定运行和服务质量。
• 复杂性的现状:电网是一个高度复杂的人造物理系统,涉及到电气、机械、自动化等多个领域的专业知识,人类目前主要从电网系统运行表征出来的信息来与电网进行交互,包括调度方式计划、设备检修和用电计划,而表征系统除了设备的物理外观,还需要多个电气方程进行计算或估算,例如潮流计算、短路计算和稳定计算等,通过分别的计算,最后面向特定任务进行专业决策,中间还需要电力专家的经验进行过程干预以提升计算效率和效果,所以,这个过程对人和专业性有巨大的依赖。
• 复杂性的挑战:如果电力系统保持不变,也许可以继续沿用过去的技术模式;但是随着“源随荷动”到“源网荷储互动”的新型电力系统升级,地上一辆电动车,天上一朵云就可能会导致电网的电气特性发生变化例如线路负载越限,以及设备损坏例如变压器高负载导致绕阻温度发生过高,需要秒级对事件进行感知、分析和决策,这是当前的电网技术体系下的工作模式无法应对的。
针对以上提到的电网业务现状和提升需求,以第一章所述大模型如何提升生产力为方向,同时结合各类大模型技术的成熟度和能力特性,思考应用大模型提升电网生产力的思路,主要包括两个方面:
如前所述,业务域大是制约生产力的效率因素,需要人进行相对模式重复性工作,可以从大模型能力角度分为两个方面:
当前最成熟的大语言模型(LargeLanguage Model)具备较成熟的语言理解和表达能力、知识压缩能力,以及初级逻辑推理能力,可以帮助调度、运检班组长、设备主人、电网规划专家、物资采购、办公人员等岗位人员完成信息收集、信息分析、决策制定和流程督办,需要将大模型的能力(RAG、Agent、Prompt以及必要的预训练微调等)和业务场景深度融合,把业务专家的工作技能迁移到大模型上。从技术的角度上,今天大模型的能力初步具备,重点是大模型与场景结合的AI工程化。
电网有大量的设备需要运维、检修和检测试验,这些场景需要与物理环境进行信息交换,包括体力劳动和脑力劳动鼎点娱乐。体力劳动主要是现场数据采集获取,但自动化采集技术已经比较完善,例如运维巡视的视频图片的采集、现场作业面的视频采集、设备声纹录波、五遥信息等都能够采集。
关键的瓶颈在于没有直接的技术手段对这些数据进行解析(特别是现场即刻处理),以及解析后的相关联动分析和处置决策,所以这些作业除了巡视缺陷识别目前应用视觉识别模型外,其他大多无法离开对应的专业人员进行现场或电脑前的参与。而多模态大模型(Large Multimodal Model)利用万物皆可Transformer的思想,实现了对多模态数据与大语言模型的融合,端到端解决了从感知采集感知理解到信息认知分析的问题。可以展望,在多模态大模型与变电站巡视等领域知识结合后,今天的变电站智巡摄像头、无人机的单模态为主的执行巡视,将会在未来变成以自动化机器人为主的形式,实现变电站无人化的“望闻问切”全天候巡视。
不过,由于当前多模态大模型采用CLIP思想的对比学习方法,需要的半合成样本数量是图像识别模型的百倍千倍,这些样本数据不像LLM预训练时可以完全无标注的自监督训练,而是需要根据使用场景对图像/视频等模态样本进行自动/半自动标注,并且需要辅以一定的审核工作,所以样本的数量和质量是瓶颈,算力和算法没问题。如何突破,从技术还是数据角度,还是两者结合,尚有待观察。
随同诺贝尔物理奖一同颁发的其他奖项,诺贝尔化学奖颁发给了DeepMind的Demis Hassabis和John Michael Jumper,以表彰其利用在AlphaFold在蛋白质结构预测方面的贡献,AlphaFold2完成了98.5%的人类蛋白质的预测,而过去数十年人类只预测了人类蛋白质的17%。AlphaFold工作原理粗浅的说是把蛋白质折叠纹路序列化Embedding到Transformer中,结合StableDiffusion进行的蛋白质折叠的序列预测,具体可以见原理介绍[2]。可见大模型技术除了解决文字信息和感知信息的处理理解外,还可以结合专业领域定制专用大模型,来颠覆性解决行业大难题。所以,可以预见AI4S(AI For Science)未来将成为AI领域的重要赛道,成为科研第四范式时代、科学发现的奇点,以后科学成果的涌现将呈现指数级增长。
回顾第2章所述,电网的机理复杂性,几乎不可能靠大语言模型和多模态大模型来完成,在电网领域,通过构建一个基于Transformer架构的行业大模型,可以重构电网分析方法,实现更高效、更准确的电网管理和优化。
以电网的动态电气量指标的分析为例,它是电网运行状态评估的关键,传统分析方法面临复杂性增加、仿真计算量大耗时过长、稳定性定义局限性、设备动态特性难以准确刻画、不确定性考量缺失、实时量测限制和非线性约束考虑不足等问题,一定程度上困扰着电网的安全经济稳定运行目标。并且,整个分析过程是多个算法分布计算,最后如何把结果进行决策和组合计算,还要考虑电力分析的多次迭代,这个过程的复杂度和效率可想而知。这个过程也非常类似与过去NLP几十年无法突破的问题:传统NLP思想是把实体识别、词性标注、情感分析等十几个不同的任务,在最后面向具体应用的时候进行组装,这种架构下,从训练到推理的迭代过程中的优化就是一场灾难,而大模型的特点是多任务合一,端到端解决问题,值得借鉴。
以训练电网分析行业大模型为目标,我们可以将电网中的电压、电流、负荷等基础数据,以及有功功率、无功功率等功率类数据,通过特定特征提取方法构造序列化数据,输入到Transformer架构中,面向预测电网的短期态势感知和长期运行趋势分析等任务,例如,通过分析电网的功率因素识别出无功消耗较大的区域,并提出相应的优化措施,通过编解码架构的“预测”能力,输出预期的分析结果。通过这样的方式,可以用一个算法架构实现对大电网海量数据的训练吞吐能力、大量电气特征的表达能力,以及基于多头注意力机制对用户预期任务目标的精准“理解” 。
其他的例如电网稳定运行、电力系统建模与分析、调度与暂态分析、保护与控制等方面,亦可以参考类似的算法思想进行创新研发。当然,这个过程将会非常复杂艰辛,未来如何落地,还需要业业内各界共同探索和实践。
另外,还有相对成熟的时序大模型,可以开展一些预测任务,例如天气预测、负荷预测等场景,目前也正在技术结合场景落地中,预期会有一些成效。
社会各行各业如火如荼尝试应用大模型技术,浙达能源以能源+AI为目标,也投身其中。行业+大模型应用刚刚起步,如何避免失败是重中之重,经过大量项目的实践,我们总结产业+大模型的过程中的部分思考和心得,供大家参考。
a)场景验证迭代方法,先验证再投资。除了知识问答和客服这些以内容交互为主的C端能力是沿用迁移过来的,大模型的技术在B端还没有出现成熟的行业化应用场景,更多都是在PMF产品市场需求验证阶段,而大模型投资大,特别是算力硬件,所以选择场景最重要。如何选择场景,除了做推演评估,一个比较好的方案是用能场景验证迭代方法,用当前最新主流大模型进行场景迭代验证,把一个业务过程分段验证,一旦验证通过后,即便无法达到90分,但在基模型+提示词下也可以拿到基本可用的70分以上,足以让用户产生信心进行投资,再进行平台、算力和专属模型购置,预训练和微调等后续完善性工作,通过这些完善工作可以让系统最大接近用户的期望值。
b)业务还原剖解方法,用户也是产品经理。综上所述,大模型不是打补丁,如果能够应用成功,可以在生产力层面进行颠覆性提升,本质上是把团队中最专业专家的能力教给大模型。用户不再只是项目需求和指挥者,而是项目产品经理,需要业务专家把专业能力剖解出来,通过大模型工程化(RAG、Agent、Prmopt和微调等手段)掌握这些技能。未来大模型技术趋势是:不需要去干预模型的内置参数,而是通过任务提示(Prompt工程)来正确引导大模型完成任务,用户将会更直接参与到大模型系统开发中。
c)数据能力是关键,数据是大模型的短板。可以说在目前行业场景下,算力和算法都没有问题,缺的是行业数据(数量和质量),随着用户期望的逐步提升鼎点娱乐,提升大模型的关键是收集、沉淀、创造更多的数据。这个过程中,如何将传统企业内部积累的海量结构化和非结构数据进行治理、加工和挖掘价值,令其成为投喂大模型的“养料”,成为用户未来最关心的问题之一。
以GPT为代表的大模型技术从2018年推出,2022年底爆火,到今天2024年行业普遍入局试水,已经过去6个年头。任何一项新技术提出,都需要时间,时间让技术迭代完善,让先行者进行业务创新磨合,让普罗大众逐步了解、接受和使用。大模型技术由于幻觉不可避免性、工业容错率低等等问题,时至今日不乏质疑、顾虑和观望,但路已在,也许今天大模型技术亦如Hinton教授2007提出的深度学习框架一样,从平凡而生。