成人亚洲视频日韩视频免费,国产SUV精品一区二区6,国产无套粉嫩白浆在

數(shù)據(jù)不一致性，是指各類(lèi)數(shù)據(jù)的矛盾性、不相容性。其一是由于數(shù)據(jù)冗余造成的，二是由于并發(fā)控制不當(dāng)造成的，三是由于各種故障、錯(cuò)誤造成的。

內(nèi)容簡(jiǎn)介數(shù)據(jù)是對(duì)現(xiàn)實(shí)世界的描述，應(yīng)該符合一定的語(yǔ)義規(guī)則和邏輯常識(shí)，但實(shí)際應(yīng)用中，由于各種原因，有些數(shù)據(jù)違反了這樣的語(yǔ)義規(guī)則，表現(xiàn)為數(shù)據(jù)值異常、不完整或相互矛盾，對(duì)于關(guān)系數(shù)據(jù)而言，還有實(shí)體異常(多條記錄對(duì)應(yīng)同一實(shí)體)、包含異常(多表之間記錄不滿足包含關(guān)系)等，所有這類(lèi)“臟”數(shù)據(jù)我們稱之為不一致數(shù)據(jù)。數(shù)據(jù)不一致性是指數(shù)據(jù)的矛盾性、不相容性。1

產(chǎn)生原因數(shù)據(jù)不一致性的原因主要有以下三種：一是由于數(shù)據(jù)冗余造成的；二是由于并發(fā)控制不當(dāng)造成的；三是由于各種故障、錯(cuò)誤造成的。

第一種情況的出現(xiàn)往往是由于重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性地更新造成的。例如教師工資的調(diào)整，如果人事處的工資數(shù)據(jù)已經(jīng)改動(dòng)了，而財(cái)務(wù)處的工資數(shù)據(jù)未改變，就會(huì)產(chǎn)生矛盾的工資數(shù)。

第二種情況是由于多用戶共享數(shù)據(jù)庫(kù)，而更新操作未能保持同步進(jìn)行而引起。例如，在飛機(jī)票訂購(gòu)系統(tǒng)中，如果不同的兩個(gè)購(gòu)票點(diǎn)同時(shí)查詢某張機(jī)票的訂購(gòu)情況，而且分別為顧客訂購(gòu)了這張機(jī)票，就會(huì)造成一張機(jī)票分別賣(mài)給兩名顧客的情況。這是由于系統(tǒng)沒(méi)有進(jìn)行并發(fā)控制，所以造成了數(shù)據(jù)的不一致性。

第三種情況下，當(dāng)由于某種原因（如硬件故障或軟件故障）而造成數(shù)據(jù)丟失或數(shù)據(jù)損壞，要根據(jù)各種數(shù)據(jù)庫(kù)維護(hù)手段（如轉(zhuǎn)存、日志等）和數(shù)據(jù)恢復(fù)措施將數(shù)據(jù)庫(kù)恢復(fù)到某個(gè)正確的、完整的、一致性的狀態(tài)下。1

分類(lèi)數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù)不一致性主要來(lái)自兩個(gè)層次，即數(shù)據(jù)本身的不一致性和模式匹配的不確定性。

在數(shù)據(jù)交換應(yīng)用中，由于不同的應(yīng)用對(duì)同一數(shù)據(jù)可能有著不同的要求，源數(shù)據(jù)的語(yǔ)義模型和目標(biāo)數(shù)據(jù)的語(yǔ)義模型可能不一樣，這就導(dǎo)致確定一致的源數(shù)據(jù)，可能因?yàn)檫`反了目標(biāo)數(shù)據(jù)上的語(yǔ)義約束而不一致。

數(shù)據(jù)集成系統(tǒng)處理的數(shù)據(jù)多種多樣，有些數(shù)據(jù)本身就不一致，例如通過(guò)信息抽取系統(tǒng)自動(dòng)從文本或者半結(jié)構(gòu)化的數(shù)據(jù)源中抽取的數(shù)據(jù)，由于抽取技術(shù)所限，這些數(shù)據(jù)通常不準(zhǔn)確；還有一些數(shù)據(jù)是從在線數(shù)據(jù)源中抽取的，數(shù)據(jù)集成系統(tǒng)很難保證所抽取數(shù)據(jù)的可靠性和實(shí)時(shí)性。另外，即使單個(gè)數(shù)據(jù)源是確定的，當(dāng)多個(gè)自治的數(shù)據(jù)源整合到一個(gè)數(shù)據(jù)中，由于相互沖突，或違反全局語(yǔ)義模型，而表現(xiàn)為不一致。1

實(shí)際舉例數(shù)據(jù)不一致性存在于以下應(yīng)用：

web信息抽取技術(shù)將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。這些結(jié)構(gòu)化數(shù)據(jù)往往存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中，供用戶查詢以及進(jìn)一步分析利用。但眾所周知，internet具有開(kāi)放性，不一致性，交互性，超時(shí)空性等特點(diǎn)。但正是因?yàn)榛ヂ?lián)網(wǎng)的這些特性，網(wǎng)頁(yè)中的數(shù)據(jù)良莠不齊，存在著嚴(yán)重的不一致問(wèn)題。

數(shù)據(jù)挖掘的目的是從大量紛繁復(fù)雜的原始數(shù)據(jù)中獲取知識(shí)。原始數(shù)據(jù)的質(zhì)量在很大程度上決定了數(shù)據(jù)挖掘的成功與否。當(dāng)原始數(shù)據(jù)信息豐富、準(zhǔn)確客觀時(shí)，所獲取的知識(shí)價(jià)值高；如果原始數(shù)據(jù)的質(zhì)量不理想，例如字段值有誤差或不一致，所獲取的知識(shí)可能并無(wú)任何借鑒意義。數(shù)據(jù)挖掘中的數(shù)據(jù)往往來(lái)自多個(gè)系統(tǒng)，這些數(shù)據(jù)源本身可能存在一些缺失或錯(cuò)誤等質(zhì)量問(wèn)題，集成到一起更可能相互矛盾。

因此，在實(shí)際應(yīng)用中，一般開(kāi)展數(shù)據(jù)挖掘前要進(jìn)行數(shù)據(jù)清洗 (data cleaning)以梗填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù)，糾正不一致數(shù)據(jù)來(lái)提高數(shù)據(jù)質(zhì)量。不一致數(shù)據(jù)的查詢處理可以為數(shù)據(jù)挖掘的臟數(shù)據(jù)處理開(kāi)拓新的解決思路。2

解決辦法數(shù)據(jù)庫(kù)系統(tǒng)考慮了各種破壞數(shù)據(jù)一致性的因素，并采取了一些相應(yīng)的措施來(lái)維護(hù)數(shù)據(jù)庫(kù)的一致性。例如提供了并發(fā)控制的手段，提供了存儲(chǔ)、恢復(fù)、日志等功能。由于數(shù)據(jù)面向整個(gè)系統(tǒng)，是有結(jié)構(gòu)的數(shù)據(jù)，不僅可以被多個(gè)應(yīng)用共享使用，而且容易增加新的應(yīng)用，這就使得數(shù)據(jù)庫(kù)系統(tǒng)易于擴(kuò)充，可以適應(yīng)各種用戶的要求?？梢匀≌w數(shù)據(jù)的各種子集用于不同的應(yīng)用系統(tǒng)，當(dāng)應(yīng)用需求改變或增加時(shí)，只要重新選取不同的子集或加上一部分?jǐn)?shù)據(jù)便可以滿足新的需求。

基于標(biāo)記的查詢回答不一致性被看作是數(shù)據(jù)的一個(gè)屬性，并能使用標(biāo)記符號(hào)加以說(shuō)明，所有數(shù)據(jù)庫(kù)及其查詢回答的單元值上都可以附上0到多個(gè)標(biāo)記，如果附上的符號(hào)數(shù)為0，那么該單元值是一致可信的，反之則不一致不可信。

聚類(lèi)將數(shù)據(jù)集劃分為聚類(lèi)，然后通過(guò)聚類(lèi)來(lái)表示數(shù)據(jù)集；1

如果數(shù)據(jù)可以組成各種不同的聚類(lèi)，則技術(shù)非常有效，反之，如果數(shù)據(jù)界線模糊，則方法無(wú)效；

數(shù)據(jù)可以分層聚類(lèi)，并存儲(chǔ)在多層索引樹(shù)中。3

本詞條內(nèi)容貢獻(xiàn)者為:

杜強(qiáng) - 高級(jí)工程師 - 中國(guó)科學(xué)院工程熱物理研究所

[科普中國(guó)]-數(shù)據(jù)不一致性