版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-數(shù)據(jù)不一致性

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

數(shù)據(jù)不一致性,是指各類(lèi)數(shù)據(jù)的矛盾性、不相容性。其一是由于數(shù)據(jù)冗余造成的,二是由于并發(fā)控制不當(dāng)造成的,三是由于各種故障、錯(cuò)誤造成的。

內(nèi)容簡(jiǎn)介數(shù)據(jù)是對(duì)現(xiàn)實(shí)世界的描述,應(yīng)該符合一定的語(yǔ)義規(guī)則和邏輯常識(shí),但實(shí)際應(yīng)用中,由于各種原因,有些數(shù)據(jù)違反了這樣的語(yǔ)義規(guī)則,表現(xiàn)為數(shù)據(jù)值異常、不完整或相互矛盾,對(duì)于關(guān)系數(shù)據(jù)而言,還有實(shí)體異常(多條記錄對(duì)應(yīng)同一實(shí)體)、包含異常(多表之間記錄不滿足包含關(guān)系)等,所有這類(lèi)“臟”數(shù)據(jù)我們稱之為不一致數(shù)據(jù)。數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。1

產(chǎn)生原因數(shù)據(jù)不一致性的原因主要有以下三種:一是由于數(shù)據(jù)冗余造成的;二是由于并發(fā)控制不當(dāng)造成的;三是由于各種故障、錯(cuò)誤造成的。

第一種情況的出現(xiàn)往往是由于重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性地更新造成的。例如教師工資的調(diào)整,如果人事處的工資數(shù)據(jù)已經(jīng)改動(dòng)了,而財(cái)務(wù)處的工資數(shù)據(jù)未改變,就會(huì)產(chǎn)生矛盾的工資數(shù)。

第二種情況是由于多用戶共享數(shù)據(jù)庫(kù),而更新操作未能保持同步進(jìn)行而引起。例如,在飛機(jī)票訂購(gòu)系統(tǒng)中,如果不同的兩個(gè)購(gòu)票點(diǎn)同時(shí)查詢某張機(jī)票的訂購(gòu)情況,而且分別為顧客訂購(gòu)了這張機(jī)票,就會(huì)造成一張機(jī)票分別賣(mài)給兩名顧客的情況。這是由于系統(tǒng)沒(méi)有進(jìn)行并發(fā)控制,所以造成了數(shù)據(jù)的不一致性。

第三種情況下,當(dāng)由于某種原因(如硬件故障或軟件故障)而造成數(shù)據(jù)丟失或數(shù)據(jù)損壞,要根據(jù)各種數(shù)據(jù)庫(kù)維護(hù)手段(如轉(zhuǎn)存、日志等)和數(shù)據(jù)恢復(fù)措施將數(shù)據(jù)庫(kù)恢復(fù)到某個(gè)正確的、完整的、一致性的狀態(tài)下。1

分類(lèi)數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù)不一致性主要來(lái)自兩個(gè)層次,即數(shù)據(jù)本身的不一致性和模式匹配的不確定性。

在數(shù)據(jù)交換應(yīng)用中,由于不同的應(yīng)用對(duì)同一數(shù)據(jù)可能有著不同的要求,源數(shù)據(jù)的語(yǔ)義模型和目標(biāo)數(shù)據(jù)的語(yǔ)義模型可能不一樣,這就導(dǎo)致確定一致的源數(shù)據(jù),可能因?yàn)檫`反了目標(biāo)數(shù)據(jù)上的語(yǔ)義約束而不一致。

數(shù)據(jù)集成系統(tǒng)處理的數(shù)據(jù)多種多樣,有些數(shù)據(jù)本身就不一致,例如通過(guò)信息抽取系統(tǒng)自動(dòng)從文本或者半結(jié)構(gòu)化的數(shù)據(jù)源中抽取的數(shù)據(jù),由于抽取技術(shù)所限,這些數(shù)據(jù)通常不準(zhǔn)確;還有一些數(shù)據(jù)是從在線數(shù)據(jù)源中抽取的,數(shù)據(jù)集成系統(tǒng)很難保證所抽取數(shù)據(jù)的可靠性和實(shí)時(shí)性。另外,即使單個(gè)數(shù)據(jù)源是確定的,當(dāng)多個(gè)自治的數(shù)據(jù)源整合到一個(gè)數(shù)據(jù)中,由于相互沖突,或違反全局語(yǔ)義模型,而表現(xiàn)為不一致。1

實(shí)際舉例數(shù)據(jù)不一致性存在于以下應(yīng)用:

web信息抽取技術(shù)將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中,供用戶查詢以及進(jìn)一步分析利用。但眾所周知,internet具有開(kāi)放性,不一致性,交互性,超時(shí)空性等特點(diǎn)。但正是因?yàn)榛ヂ?lián)網(wǎng)的這些特性,網(wǎng)頁(yè)中的數(shù)據(jù)良莠不齊,存在著嚴(yán)重的不一致問(wèn)題。

數(shù)據(jù)挖掘的目的是從大量紛繁復(fù)雜的原始數(shù)據(jù)中獲取知識(shí)。原始數(shù)據(jù)的質(zhì)量在很大程度上決定了數(shù)據(jù)挖掘的成功與否。當(dāng)原始數(shù)據(jù)信息豐富、準(zhǔn)確客觀時(shí),所獲取的知識(shí)價(jià)值高;如果原始數(shù)據(jù)的質(zhì)量不理想,例如字段值有誤差或不一致,所獲取的知識(shí)可能并無(wú)任何借鑒意義。數(shù)據(jù)挖掘中的數(shù)據(jù)往往來(lái)自多個(gè)系統(tǒng),這些數(shù)據(jù)源本身可能存在一些缺失或錯(cuò)誤等質(zhì)量問(wèn)題,集成到一起更可能相互矛盾。

因此,在實(shí)際應(yīng)用中,一般開(kāi)展數(shù)據(jù)挖掘前要進(jìn)行數(shù)據(jù)清洗 (data cleaning)以梗填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),糾正不一致數(shù)據(jù)來(lái)提高數(shù)據(jù)質(zhì)量。不一致數(shù)據(jù)的查詢處理可以為數(shù)據(jù)挖掘的臟數(shù)據(jù)處理開(kāi)拓新的解決思路。2

解決辦法數(shù)據(jù)庫(kù)系統(tǒng)考慮了各種破壞數(shù)據(jù)一致性的因素,并采取了一些相應(yīng)的措施來(lái)維護(hù)數(shù)據(jù)庫(kù)的一致性。例如提供了并發(fā)控制的手段,提供了存儲(chǔ)、恢復(fù)、日志等功能。由于數(shù)據(jù)面向整個(gè)系統(tǒng),是有結(jié)構(gòu)的數(shù)據(jù),不僅可以被多個(gè)應(yīng)用共享使用,而且容易增加新的應(yīng)用,這就使得數(shù)據(jù)庫(kù)系統(tǒng)易于擴(kuò)充,可以適應(yīng)各種用戶的要求??梢匀≌w數(shù)據(jù)的各種子集用于不同的應(yīng)用系統(tǒng),當(dāng)應(yīng)用需求改變或增加時(shí),只要重新選取不同的子集或加上一部分?jǐn)?shù)據(jù)便可以滿足新的需求。

基于標(biāo)記的查詢回答不一致性被看作是數(shù)據(jù)的一個(gè)屬性,并能使用標(biāo)記符號(hào)加以說(shuō)明,所有數(shù)據(jù)庫(kù)及其查詢回答的單元值上都可以附上0到多個(gè)標(biāo)記,如果附上的符號(hào)數(shù)為0,那么該單元值是一致可信的,反之則不一致不可信。

聚類(lèi)將數(shù)據(jù)集劃分為聚類(lèi),然后通過(guò)聚類(lèi)來(lái)表示數(shù)據(jù)集;1

如果數(shù)據(jù)可以組成各種不同的聚類(lèi),則技術(shù)非常有效,反之,如果數(shù)據(jù)界線模糊,則方法無(wú)效;

數(shù)據(jù)可以分層聚類(lèi),并存儲(chǔ)在多層索引樹(shù)中。3

本詞條內(nèi)容貢獻(xiàn)者為:

杜強(qiáng) - 高級(jí)工程師 - 中國(guó)科學(xué)院工程熱物理研究所