因为ChatGPT太火了,行业内外都在搞自然语言大模型,电力也不例外,新技术就加上这一节。关于自然语言的解析发展,有“知识库->知识图谱->大模型"这么一个过程,笔者把两个合在一起谈。
PART 1概念
知识库有两种含义:一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库。这种知识库是与具体的专家系统有关,不存在知识库的共享问题;另一种是指具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的。
大模型是指具有大量参数的深度学习或机器学习模型,这些参数可以通过训练过程自动调整以捕获输入数据中的复杂关系。这类模型通常具有较深的网络结构和较多的神经元,以增加模型的表示能力和学习能力。大模型在诸如自然语言处理、计算机视觉和语音识别等领域取得了显著的成果。PART
2 通俗讲解
这些知识库、知识图谱、大模型对非技术人员来说,实在太拗口了。笔者模仿自动驾驶5级分类模型,按自己的理解,绘了张图,把这些当成知识管理”几个阶段的发展应用“,大家看看就图一乐:
L0,最原始的知识库阶段:即传统说法的知识库,上节概念中知识库的二者结合,既是知识的集合体,也是共享的(个人知识库除外)。表现形式为各种文件、词条、文章的集合,应用就是查看和按标题、类型格式等粗颗粒的检索,相当于Windows的文件管理能力。这阶段的分类管理基本靠人,谈不上什么智能,所以叫“L0"。
L1,复杂的检索搜索能力:如全文检索能力,更进一步的如联想、重要性关联、聚合推荐、兴趣推荐等能力,这时候就是有”知识图谱”的应用,知识与知识不只是按类存放,他们之间是有关系的,可以提供基于结构化关系的搜索能力,可以对你的搜索提供一些“相关”的资料。
L2,文字解答问题的能力:对问题的输入不再是提供关键字检索,而是整段输入问题,系统通提供包含文字图形的答案,这需要系统有自然语言解析的能力,能看得懂”问题“,然后对搜索的结果有整合的能力,这阶段就是”自然语言+大模型“的应用,前者理解这段话并组合答案,后者重点在寻找答案。这阶段生成的”答案”,看起是一段可阅读的话,但并不能保证是正确完善的。笔者试用了文心一言等工具,感觉比较像这个阶段,可以理解为小学生写作文,是“人”写的,但内容不一定对。
L3,完善可靠回答问题能力:相比较L2,输出的内容已经是很可靠的内容,并能以规格化的如通知、文案、报告等形式,作为最终答案,可以理解为可靠性非常高,已经是成人在办事。现在ChatGPT在日常文档处理中已经相当接近了这个水平了。但像电力行业的技术很封闭,对可靠性要求很高,还未有能接近这一阶段的模型。
L4,输出方案并执行工单的能力:我们在电力研究自动化当然不是为了聊天或仅仅是查资料,而是为了代替人处理工作。基于L3的可靠性上,可以直接对工单进行自动化处理了。“工单自动化”一直都是有的,但以往的自动化是程序员按即定规则编写的,如“低压投诉转营销部、中压投诉转配电部”,而现在用上了大模型人工智能,系统可以通过“阅读”日常的行为规范,学习到如何可靠执行处理工单,不是硬编码了。让”系统成长自动化“,就像把外行培养成熟练技术人员一样喂资料就行,而不是靠程序员编码敲出来。
L5,输出方案并现场执行的能力:在处理数据工单的技术上,进一步发展,直接操作现场设备,典型如“自动化的调度转供电”操作,到这一阶段,可以实现如“提供场站的图纸,就能让巡检机器人自动规划路线,自动巡检处理缺陷”的完全自动化的工作,人工只起到监督复核的作用,就像L5完全自动驾驶一样。
3 展望
目前已知的电力方向尝试的知识库或大模型,都是在L0~L2阶段,包括ChatGPT也是。
懂大模型的不懂电力,或者拿不到专业可靠的电力数据(主要是他们也不会专做电力),即使是国内某个电力大厂搞的知识问答,数据质量也是很差,因为做数据只是个任务,看量不看质。电力数据因为样本少,少量错误数据即可严重污染整体。
对有一些数据的,没有计算能力做大模型(比如说笔者哈)。笔者做的电知网,目前具备一些L0的实现,正在向L1发展,有L2的条件的同志如果愿意在公网发布成果可以联系合作。