版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

知識圖譜在石油煉化領(lǐng)域的應(yīng)用

中國石油學(xué)會
原創(chuàng)
傳播石油知識,弘揚(yáng)石油精神
收藏

知識圖譜是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,利用可視化的圖譜,形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu),達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計(jì)量和圖形繪制顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實(shí)的、有價值的參考。作為當(dāng)前人工智能的重要方向之一,結(jié)合大數(shù)據(jù)處理、統(tǒng)計(jì)計(jì)算、學(xué)習(xí)算法、深度學(xué)習(xí)算法等技術(shù),受益于越來越多結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的計(jì)算能力,知識圖譜的可計(jì)算性有了很大提高,在知識檢索、知識推理、知識輔助理解等方面,為石油化工領(lǐng)域工作人員提供了便利。

知識圖譜發(fā)展史

知識圖譜啟蒙期可以追溯到20世紀(jì)50年代和60年代,在人工智能領(lǐng)域,知識工程作為一個分支已經(jīng)存在了很長時間??偟膩碚f,人工智能有三個比較大的分支,即神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和知識工程。

自20世紀(jì)60年代始,知識工程領(lǐng)域不斷向前發(fā)展,產(chǎn)生了很多新的邏輯語言和新的實(shí)用方法。例如“語義網(wǎng)絡(luò)”(又名框架網(wǎng)絡(luò))與現(xiàn)在的知識圖譜非常相似。

1997年,Edward以知識為智能系統(tǒng)的核心,提出了知識工程的概念。Tim提出了語義網(wǎng),使用本體的概念系統(tǒng)來描述客觀世界,通過統(tǒng)一的描述方法對網(wǎng)頁內(nèi)容進(jìn)行語義標(biāo)記,使網(wǎng)頁互聯(lián)成為內(nèi)容互聯(lián),甚至語義互聯(lián)。在此基礎(chǔ)上,形成了以RDF(ResourceDescription Framework)為模型的知識表示體系,并逐漸演變成一整套成熟的知識表示、序列化、查詢、存儲規(guī)范,成為現(xiàn)代知識圖譜的基礎(chǔ)。Web 2.0出現(xiàn)后,維基百科以多人協(xié)作的形式產(chǎn)生海量知識數(shù)據(jù),成為大型知識庫的主要來源之一。在此基礎(chǔ)上,DBpedia 和 Freebase 是當(dāng)代大規(guī)模知識圖譜的原型。

從最終結(jié)果來看,現(xiàn)在的知識圖譜似乎與20世紀(jì)60年代存在的語義網(wǎng)絡(luò)非常相似,但這種相似之處只是表面的。因?yàn)樵诎l(fā)展的過程中,開發(fā)者構(gòu)建了一個龐大的產(chǎn)業(yè)體系,以及如何從各種文檔和各種數(shù)據(jù)集中編輯生成知識圖譜的完整產(chǎn)業(yè)鏈。因此一項(xiàng)技術(shù)不能只看它的定義,更重要的是看工業(yè)系統(tǒng)在與其相關(guān)的所有實(shí)踐過程中的總和。如今的知識圖譜技術(shù)在深度和廣度上已經(jīng)遠(yuǎn)遠(yuǎn)超越了20世紀(jì)的語義網(wǎng)絡(luò)技術(shù)。

2012年,谷歌構(gòu)建了一個大規(guī)模的知識庫Knowledge Graph,并將其應(yīng)用于搜索結(jié)果的提升。從此拉開了當(dāng)代知識圖譜大規(guī)模應(yīng)用的序幕。

國內(nèi)知識圖譜應(yīng)用現(xiàn)狀

知識圖譜的應(yīng)用正處于突飛猛進(jìn)的時期,從最初的語義知識圖譜不斷發(fā)展到行業(yè)細(xì)分的知識圖譜。目前,知識圖譜在國內(nèi)的應(yīng)用種類繁多,應(yīng)用于電商平臺、企業(yè)信息化、科技信息化、風(fēng)險(xiǎn)投資、農(nóng)林科技、醫(yī)療健康、工業(yè)應(yīng)用和視聽娛樂等不同領(lǐng)域。

2012年以來,在數(shù)據(jù)理論和算法模型的驅(qū)動下,知識圖譜技術(shù)發(fā)展迅速,該領(lǐng)域的專利申請量顯著增加,知識圖譜領(lǐng)域越來越受到各創(chuàng)新主體的關(guān)注。2020年,知識圖譜專利申請量達(dá)到峰值7256件。

目前,國內(nèi)商業(yè)界對知識圖譜的研究非常活躍,尤其是一些大型互聯(lián)網(wǎng)公司對知識圖譜的需求十分強(qiáng)烈。例如,百度的知識圖譜自 2014 年推出以來,3年內(nèi)業(yè)務(wù)規(guī)模增長了約160倍;搜狗借助基于知識圖譜的人工智能技術(shù),實(shí)現(xiàn)了移動端的搜索流量快速增長;騰訊利用自身的數(shù)據(jù)優(yōu)勢,構(gòu)建了自己的社交知識圖譜,并服務(wù)于眾多產(chǎn)品;基于知識圖譜的個性化推薦系統(tǒng)對阿里的營收增長起到了至關(guān)重要的作用。

煉油化工領(lǐng)域知識圖譜的應(yīng)用

目前,煉油化工領(lǐng)域知識圖譜在知識化方面,缺少面向應(yīng)用系統(tǒng)的知識歸集和知識評價,煉油化工領(lǐng)域本體構(gòu)建所涉及的實(shí)體、關(guān)系、屬性是十分龐大的,需要行業(yè)領(lǐng)域?qū)<一ㄙM(fèi)大量的時間進(jìn)行梳理。此外,對于數(shù)據(jù)管理、數(shù)據(jù)利用,國內(nèi)煉廠中應(yīng)用系統(tǒng)數(shù)量多,導(dǎo)致積累了大量數(shù)據(jù),管理難度大,而且不同系統(tǒng)間數(shù)據(jù)流通性差,數(shù)據(jù)價值難以體現(xiàn)。煉油化工領(lǐng)域中的數(shù)據(jù),除了數(shù)量龐大之外,還包含行業(yè)特點(diǎn),如工藝流程、原料、產(chǎn)品、裝置、儀器、生產(chǎn)管理等專業(yè)數(shù)據(jù),格式種類繁多,存在的系統(tǒng)也互不相通。

近年來,通過煉油化工領(lǐng)域?qū)<覍︻I(lǐng)域知識進(jìn)行梳理,歸納總結(jié)行業(yè)實(shí)體、關(guān)系以及屬性,基于知識圖譜構(gòu)建技術(shù),可逐步形成石油化工行業(yè)知識圖譜本體。在該領(lǐng)域本體的基礎(chǔ)上,對煉廠所用各系統(tǒng)數(shù)據(jù)進(jìn)行采集與融合,通過語義分析及關(guān)系映射使每個孤島知識之間形成關(guān)聯(lián)關(guān)系。在日后數(shù)據(jù)不斷新增時,動態(tài)同步煉廠數(shù)據(jù)。在確保領(lǐng)域圖譜可靠可用后,在圖譜基礎(chǔ)上逐漸拓展應(yīng)用服務(wù),使煉廠原始數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)等被充分利用。在應(yīng)用方面可基于圖譜中所積累歸納的專家經(jīng)驗(yàn),幫助煉廠實(shí)現(xiàn)安全平穩(wěn)運(yùn)行。當(dāng)生產(chǎn)過程中發(fā)生突發(fā)事件時,演變過程通常具有不確定性,發(fā)生過程存在多種可能。面對突發(fā)事件,對場景的預(yù)測一般是基于經(jīng)驗(yàn)以及知識推理,對于“正確”的建議,知識是相對穩(wěn)定的認(rèn)知狀態(tài),知識能夠保證自身的工具價值,將機(jī)器學(xué)習(xí)與知識相結(jié)合時,通過深度學(xué)習(xí),對知識的解釋有很大的幫助,基于領(lǐng)域知識圖譜,使機(jī)器擁有類人的學(xué)習(xí)、分析、判斷能力。對于突發(fā)事件,設(shè)計(jì)更有針對性的指揮、救援、搶險(xiǎn)等方案。而基于圖譜技術(shù)以及機(jī)器對專家經(jīng)驗(yàn)、突發(fā)事件的深度學(xué)習(xí),通過對煉廠中不同裝置、設(shè)備、物料的特征屬性、關(guān)聯(lián)關(guān)系進(jìn)行分析,實(shí)現(xiàn)在系統(tǒng)中輸入事件基本情況,通過算法模型分析,向操作人員推薦最佳應(yīng)急方案,輔助技術(shù)員在不同情況下快速、有效地處理事故,盡可能減少突發(fā)事件帶來的損失。

另一方面,智能問答技術(shù)近年來也在快速發(fā)展,此技術(shù)應(yīng)用于基于知識圖譜問答(KGQA),可通過構(gòu)建好的結(jié)構(gòu)化數(shù)據(jù)在知識圖譜中搜索答案。基于知識圖譜的智能問答可分為三類,其中基于信息檢索的知識圖譜智能問答,可將用戶的自然語言問題基于bert_classificatio算法模型做意圖識別,判斷句式,做實(shí)體識別,匹配模型,做關(guān)系抽取,達(dá)到解析問句的目的,提出三元組拼成圖數(shù)據(jù)庫語句,在構(gòu)建煉油化工領(lǐng)域知識圖譜中進(jìn)行答案查詢,并給出符合度最高的答案。但是為保證答案的正確性、符合性、有效性,需要在建立石油煉化領(lǐng)域知識圖譜時確保該圖譜數(shù)據(jù)的質(zhì)量,避免數(shù)據(jù)冗余、數(shù)據(jù)稀疏、數(shù)據(jù)不準(zhǔn)確等問題對智能問答所帶來的不利影響?;跓捰蜔捇I(lǐng)域知識圖譜的智能問答不僅可以幫助用戶對日常煉油化工領(lǐng)域基本問題進(jìn)行解答,還可在生產(chǎn)運(yùn)行過程中對異常工況、應(yīng)急處理等問題提供解決方案?;谥R圖譜技術(shù),將生產(chǎn)運(yùn)行中積累的裝置、設(shè)備等經(jīng)驗(yàn)知識構(gòu)建關(guān)系圖譜,對故障診斷和失效原因進(jìn)行分析,降低生產(chǎn)運(yùn)行中異常工況所帶來的損失,并通過機(jī)器學(xué)習(xí)將問題形成專家經(jīng)驗(yàn),存儲至知識庫。

結(jié)語

針對煉油化工行業(yè)領(lǐng)域,截至目前,國內(nèi)尚未建成相對成熟的知識圖譜應(yīng)用范例,但同時煉油化工企業(yè)對知識圖譜技術(shù)的需求和知識圖譜技術(shù)能夠給企業(yè)帶來的積極改變不容忽視,知識圖譜不但可以為煉油化工企業(yè)提質(zhì)增效,還可以為生產(chǎn)運(yùn)行保駕護(hù)航。此外通過梳理行業(yè)知識本體,幫助企業(yè)進(jìn)行數(shù)據(jù)、信息存儲,積累知識。目前知識圖譜技術(shù)已得到業(yè)界的廣泛認(rèn)可,因此,知識圖譜在煉油化工領(lǐng)域的發(fā)展正蓄勢待發(fā)。

作者:昆侖數(shù)智科技有限責(zé)任公司 孫筱 侯士超 劉鋒

評論
張小祥
貢生級
針對于煉油化工行業(yè)領(lǐng)域,截至目前,國內(nèi)尚未建成相對成熟的知識圖譜應(yīng)用范例
2022-09-16
飛馬騰空
太師級
2022-09-16
劉海飛123
少師級
針對于煉油化工行業(yè)領(lǐng)域,截至目前,國內(nèi)尚未建成相對成熟的知識圖譜應(yīng)用范例。
2022-09-16