亚洲国产精品无码中文字2021 ,亚洲欧美日韩国产精品影院,2020国产成人综合网

簡介

數(shù)據(jù)可用性（data availability）是一個計算機存儲制造廠商和存儲服務提供商（SSP）用來描述產(chǎn)品和服務的詞匯，這些產(chǎn)品和服務是用來確保在從正常到“崩潰”的環(huán)境中當性能保持在一個必需的級別上時，數(shù)據(jù)必須是可用的。一般來說，數(shù)據(jù)可用性是通過冗余數(shù)據(jù)存儲地點和它達到的方式來進行歸檔。一些提供商描述了某種需求：擁有數(shù)據(jù)中心和以存儲為中心，而不是以服務為中心的理念和環(huán)境。

在大型企業(yè)級計算機系統(tǒng)中，計算機通常通過連接到存儲設備的高速光纖來訪問數(shù)據(jù)。最知名的系統(tǒng)中，數(shù)據(jù)庫訪問的是ESCON和光纖通道。存儲設備通常是作為獨立磁盤冗余陣列（RAID）進行控制的。添加和重新配置存儲系統(tǒng)的靈活性以及自動轉(zhuǎn)換到備份或者錯誤恢復環(huán)境都是可編程的，或者是人工控制的開關，這通常稱為控制器。

兩個不斷流行的提供數(shù)據(jù)可用性的方式就是存儲區(qū)域網(wǎng)絡（SAN）和網(wǎng)絡附加存儲（NAS）。數(shù)據(jù)可用性可以用數(shù)據(jù)可用的比例（供應商提供了99.999%的可用性）以及在同一時間可以流動多少數(shù)據(jù)量（同一家供應商承諾了每秒3200兆字節(jié)速率）來衡量。1

定義研究者們普遍認為，數(shù)據(jù)的可用性可以從數(shù)據(jù)的一致性、準確性、完整性、時效性及實體同一性五個方面進行考察，其具體定義如下2：

數(shù)據(jù)的一致性：指數(shù)據(jù)信息系統(tǒng)中各相關數(shù)據(jù)信息之間相容、不產(chǎn)生矛盾。

數(shù)據(jù)的準確性：指數(shù)據(jù)信息系統(tǒng)中每個數(shù)據(jù)表示現(xiàn)實物體的精準程度。人們對數(shù)據(jù)進行操作的各個環(huán)節(jié)都可能影響數(shù)據(jù)準確性。

數(shù)據(jù)的完整性：指數(shù)據(jù)集合包含的數(shù)據(jù)完全滿足對數(shù)據(jù)進行各項操作的要求。

數(shù)據(jù)的時效性：是指在不同需求場景下數(shù)據(jù)的及時性和有效性。對應用系統(tǒng)而言，往往對數(shù)據(jù)時效性要求較高，過時的數(shù)據(jù)即使分析出來了也不會對實際應用產(chǎn)生有價值的影響。

實體的同一性：指同一實體在各種數(shù)據(jù)源中的描述統(tǒng)一。一個數(shù)據(jù)集合，滿足以上五個性質(zhì)的程度稱為該數(shù)據(jù)集合的可用性。

一致性

數(shù)據(jù)集合中每個信息都不包含語義錯誤或相互矛盾的數(shù)據(jù)。例如，數(shù)據(jù)（公司=“先導”，國碼=“86”，區(qū)號=“10”，城市=“上海”）含有一致性錯誤，因為10是北京區(qū)號而非上海區(qū)號。又如，若銀行信用卡數(shù)據(jù)庫顯示某持卡人在北京和新疆兩地同時使用同一信用卡消費，則出現(xiàn)數(shù)據(jù)不一致，預示發(fā)生信用卡欺詐的可能。

精確性

數(shù)據(jù)集合中每個數(shù)據(jù)都能準確表述現(xiàn)實世界中的實體。例如，某城市人口數(shù)量為4130465，數(shù)據(jù)庫中記載為400萬，宏觀來看該信息是合理的，但不精確。一致的信息也可能含有誤差，未必精確。在許多應用領域，信息精確性至關重要。

完整性

數(shù)據(jù)集合中包含足夠的數(shù)據(jù)來回答各種查詢和支持各種計算。例如，某醫(yī)療數(shù)據(jù)庫中的數(shù)據(jù)一致且精確，但遺失某些患者的既往病史，從而存在不完整性，可能導致不正確的診斷甚至嚴重醫(yī)療事故。

時效性

信息集合中每個信息都與時俱進，不陳舊過時。例如，某數(shù)據(jù)庫中的用戶地址在2010年是正確的，但在2011年未必正確，即數(shù)據(jù)過時。據(jù)統(tǒng)計，商業(yè)和醫(yī)療信息庫中平均50%的用戶信息在2年內(nèi)可能過時，而過時信息將會導致嚴重后果。

實體同一性

同一實體在各種數(shù)據(jù)源中的描述統(tǒng)一。例如，為防止信用卡欺詐，銀行需監(jiān)測信用卡的使用者和持有者是否為同一人。又如，企業(yè)的市場、銷售和服務部門可能維護各自的數(shù)據(jù)庫，如果這些數(shù)據(jù)庫之間沒有共享統(tǒng)一的客戶標識，企業(yè)的兼并和重組會使兼并后的公司的客戶數(shù)據(jù)庫中存在大量具有差異的重復客戶信息，導致實體表達混亂。

根據(jù)以上5個性質(zhì)，我們可以如下定義數(shù)據(jù)可用性：一個數(shù)據(jù)集合滿足上述5個性質(zhì)的程度是該數(shù)據(jù)集合的可用性3。

評估方法分析對于數(shù)據(jù)可用性評估，國內(nèi)外研究人員也進行了許多工作。以下從數(shù)據(jù)的一致性、精確性、完整性、時效性、實體同一性五個方面進行介紹和分析2。

基于一致性的方法針對異地備份系統(tǒng)中數(shù)據(jù)持續(xù)變化的情況，設計并實現(xiàn)了一種基于累積摘要值的一致性檢測方法。該方法解決了傳統(tǒng)一致性檢測需要中斷備份任務的問題，保證了備份任務的連續(xù)性，并且能夠迅速檢測本地服務器和遠程備份中心數(shù)據(jù)的一致性，提高了一致性檢測的效率。從已有的一致性維護方法出發(fā)，針對海量數(shù)據(jù)多副本之間一致性維護，從一致性維護過程中所涉及的更新發(fā)布、更新傳播方式、更新傳播內(nèi)容、更新沖突解決等幾個方面進行了分析，提出了相應的解決辦法。針對P2P分布存儲系統(tǒng)中大型數(shù)據(jù)對象面臨的數(shù)據(jù)一致性問題，提出了數(shù)據(jù)一致性維護方法PLCP。該方法從提高更新傳播速度和減少日志空間開銷的角度進行了數(shù)據(jù)優(yōu)化。同時針對數(shù)據(jù)更新的問題和關鍵屬性更新的問題，提出數(shù)據(jù)一致性維護方法DACP和KACP。從無線傳感網(wǎng)絡數(shù)據(jù)安全的角度，結(jié)合一些廉價的保護技術，提出了利用跨層一致性評估信息整體質(zhì)量的方法。基于數(shù)據(jù)一致性的方法，主要體現(xiàn)在集中存儲方面，對于分布式和非關系數(shù)據(jù)方面研究還較少，適用于海量數(shù)據(jù)的一致性評估方法有待進一步探索。

基于精確性的方法數(shù)據(jù)精確性方面的研究結(jié)果比較少見，從精確度低的角度，提出了對應的精確性評估算法。該算法考慮了一種基于可能世界語義的描述方法。目前的研究結(jié)果顯示，數(shù)據(jù)精確性的評估方法還有待研究者們深入探究。

基于完整性的方法針對海量關系數(shù)據(jù)中普遍存在的數(shù)據(jù)不完整現(xiàn)象，劉永楠等研究了關系數(shù)據(jù)完整性度量問題。針對數(shù)據(jù)的完整性計算問題，提出了數(shù)據(jù)完整性計算模型，以及精確算法和基于均勻抽樣的近似算法。理論分析證明了近似算法可以達到任意的精度要求，可以高效地對數(shù)據(jù)完整性進行計算，通過在DBLP數(shù)據(jù)上的實驗驗證了算法的有效性和高效性。在具體應用領域，張少敏等利用IEC61970對智能電網(wǎng)進行信息集成，然后根據(jù)完整性定義，對智能電網(wǎng)數(shù)據(jù)進行自動機建模，給出了一種無需對數(shù)據(jù)進行直接操作的數(shù)據(jù)完整性定量評估模型。BarceloP等將傳統(tǒng)的完整性理論擴展到XML數(shù)據(jù)上，討論了不完整XML數(shù)據(jù)的表示問題。另外，針對云存儲服務中數(shù)據(jù)的完整性問題，一些研究者提出了PDP和POR。這兩種方案都采用了概率性證明思路，即存儲服務提供商向數(shù)據(jù)擁有者證明其完整的持有數(shù)據(jù)擁有者存儲的數(shù)據(jù)?；跀?shù)據(jù)完整性評估方面的結(jié)論還較少，特別是具有普遍適用價值的方法，還有待進一步研究。

基于時效性的方法針對歷史評價數(shù)據(jù)時效性會影響評價計算準確性的問題，引入了評價數(shù)據(jù)的時間屬性，構(gòu)造了評價數(shù)據(jù)衰減因子，減小了時效性對于評價計算準確性的影響。研究了包含冗余記錄的集合在給定時效約束下的時效性判定問題，并首次提出了時效性判定問題的求解算法.在建筑能耗領域，通過對幾類典型公共建筑能耗數(shù)據(jù)的統(tǒng)計分析對比，提出了采用近1年的能耗數(shù)據(jù)作為統(tǒng)計樣本的建議?；跁r效性方面的研究非常匱乏，已有的少量研究結(jié)論都主要針對一些特殊應用，還需深入系統(tǒng)的研究。

基于實體同一性的方法實體同一性是數(shù)據(jù)可用性研究較多的一個方面，實體同一性研究主要涉及兩類方法：第一類是從語義規(guī)則的角度進行同一性研究，這類方法主要通過經(jīng)驗知識來描述實體的同一性問題；第二類是從相似性的角度進行同一性研究，該類方法主要采用相似度函數(shù)來對實體同一性進行判定。針對實體同一性方面的相關技術，包括實體識別的效率問題、識別的增量計算、半結(jié)構(gòu)化數(shù)據(jù)上的實體識別等，展開了相對完整的討論。對于實體統(tǒng)一性的評估方法大多針對關系數(shù)據(jù)，針對復雜結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非機構(gòu)化數(shù)據(jù)方面的研究還很少2。

挑戰(zhàn)和問題確保數(shù)據(jù)可用性是一項十分困難的任務。考慮到大數(shù)據(jù)的數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生速度快、數(shù)據(jù)類型復雜、價值大密度低等4個特點，確保大數(shù)據(jù)可用性將變得難上加難。我們需要針對大數(shù)據(jù)的4個特點，解決如下大數(shù)據(jù)可用性的5個挑戰(zhàn)性研究問題3。

高質(zhì)量大數(shù)據(jù)獲取與整合的理論和技術高質(zhì)量數(shù)據(jù)的獲取是確保信息可用性的重要前提。海量數(shù)據(jù)的來源多種多樣（如復雜物理信息系統(tǒng)、物聯(lián)網(wǎng)、Internet上的數(shù)據(jù)資源），數(shù)據(jù)模態(tài)千差萬別（如關系數(shù)據(jù)、XML數(shù)據(jù)、圖數(shù)據(jù)、流數(shù)據(jù)、標量數(shù)據(jù)、矢量數(shù)據(jù)），質(zhì)量參差不齊，加工整合困難。這些問題在當今突飛猛進的傳感網(wǎng)、信息物理融合系統(tǒng)和物聯(lián)網(wǎng)及其產(chǎn)生的大數(shù)據(jù)背景下尤其嚴重。因此，我們需要解決如下挑戰(zhàn)性問題：在數(shù)據(jù)獲取階段把住質(zhì)量關，探索從物理信息系統(tǒng)等多數(shù)據(jù)源有效地獲取高質(zhì)量大數(shù)據(jù)的理論和方法，研究高效數(shù)據(jù)過濾方法，建立多模態(tài)大數(shù)據(jù)融合計算的理論和算法，實現(xiàn)高質(zhì)量數(shù)據(jù)獲取和精準整合，繼而發(fā)現(xiàn)數(shù)據(jù)演變規(guī)律。

完整的大數(shù)據(jù)可用性理論體系在數(shù)據(jù)可用性研究中，我們必須回答如下問題：如何形式化地表示數(shù)據(jù)可用性？如何從理論上判定數(shù)據(jù)可用性？如何定量地評估數(shù)據(jù)可用性？數(shù)據(jù)錯誤自動發(fā)現(xiàn)和修復的理論依據(jù)是什么？數(shù)據(jù)和數(shù)據(jù)質(zhì)量融合管理（簡稱量質(zhì)融合管理）的理論基礎是什么？數(shù)據(jù)如何演化？沒有一個完整的數(shù)據(jù)可用性理論體系，這些問題是無法回答的。因此，我們需要建立統(tǒng)一的框架，提出完整的數(shù)據(jù)可用性理論體系，解決如下挑戰(zhàn)性問題：建立大數(shù)據(jù)可用性的理論模型、大數(shù)據(jù)可用性的形式化系統(tǒng)和推理機制、大數(shù)據(jù)可用性評估理論和算法、大數(shù)據(jù)量質(zhì)融合管理的理論和算法、大數(shù)據(jù)演化機理、大數(shù)據(jù)可用性所涉及的計算問題的復雜性理論和算法設計與分析的新方法。

數(shù)據(jù)錯誤自動檢測與修復的理論和技術現(xiàn)有的數(shù)據(jù)可用性的方法和系統(tǒng)缺乏堅實的理論基礎，不能實現(xiàn)自動的錯誤檢測和修復。為了實現(xiàn)數(shù)據(jù)錯誤的自動檢測和修復，我們需要在數(shù)據(jù)可用性理論體系基礎上解決如下挑戰(zhàn)性問題：提出大數(shù)據(jù)錯誤自動檢測和修復問題的可計算性理論、大數(shù)據(jù)錯誤自動檢測和修復問題的計算復雜性理論、大數(shù)據(jù)錯誤自動檢測和修復方法的可信性理論、高效實用的大數(shù)據(jù)錯誤自動檢測與修復算法。

弱可用數(shù)據(jù)上近似計算的理論和技術當數(shù)據(jù)中的錯誤不能徹底修復時，這些數(shù)據(jù)稱為弱可用數(shù)據(jù)。直接在弱可用數(shù)據(jù)上進行滿足給定精度需求的近似計算，不失為一個有意義的選擇。遺憾的是現(xiàn)有的理論與算法無法支持弱可用數(shù)據(jù)上的近似計算。因此，我們需要解決如下挑戰(zhàn)性問題：提出弱可用大數(shù)據(jù)近似計算的可行性理論、弱可用大數(shù)據(jù)近似計算問題的計算復雜性理論、弱可用大數(shù)據(jù)上近似計算結(jié)果的質(zhì)量評估理論、弱可用大數(shù)據(jù)上的近似計算方法。

弱可用數(shù)據(jù)上的知識發(fā)掘與演化的機理大數(shù)據(jù)的可用性問題必然導致源于數(shù)據(jù)的知識的可用性問題。當數(shù)據(jù)完全可用時，從正確的大數(shù)據(jù)中發(fā)掘知識以及從數(shù)據(jù)演化探索知識演化機理的研究已經(jīng)很困難。當數(shù)據(jù)弱可用時，弱可用大數(shù)據(jù)上的知識發(fā)掘與演化機理的研究將更加困難。我們需要解決如下挑戰(zhàn)性問題：提出源于弱可用數(shù)據(jù)的知識可用性評估理論與方法、數(shù)據(jù)可用性與知識可用性的相關性理論、弱可用大數(shù)據(jù)上知識發(fā)現(xiàn)的計算復雜性理論和算法設計與分析新方法、源于弱可用數(shù)據(jù)的知識校驗與糾偏的理論和方法、源于弱可用數(shù)據(jù)的知識演變機理。綜上所述，大數(shù)據(jù)可用性在基礎理論、算法和工程技術各層面都提出了嚴峻的挑戰(zhàn)性研究問題。目前大數(shù)據(jù)可用性研究工作還剛剛開始，僅觸及少數(shù)幾個側(cè)面，大量科學技術問題有待解決，向我們提出了新的挑戰(zhàn)，也為我們提供了新的機遇。

[科普中國]-數(shù)據(jù)可用性