分布式檢索是指在分布式的環(huán)境中,利用分布式計(jì)算和移動(dòng)代理等技術(shù)從大量的、異構(gòu)的信息資源中檢索出對(duì)于用戶有用的信息的過程。這里的分布式環(huán)境指的是信息資源在物理上分布于不同的地點(diǎn),在數(shù)據(jù)庫(kù)結(jié)構(gòu)上具有異構(gòu)性,但是這些分散和異構(gòu)的信息資源在邏輯上是一個(gè)整體,從而構(gòu)成一個(gè)分布式檢索系統(tǒng)。1
簡(jiǎn)述分布式檢索是信息檢索的一種類型,它是針對(duì)網(wǎng)絡(luò)環(huán)境下信息分布式存儲(chǔ)而產(chǎn)生的一種檢索形式。常見的有跨庫(kù)、跨服務(wù)器檢索。在網(wǎng)絡(luò)環(huán)境下,信息資源往往存儲(chǔ)在地理上分散的多個(gè)不同場(chǎng)地,即結(jié)點(diǎn)中。這些結(jié)點(diǎn)具有資源建設(shè)的自主性和獨(dú)立性,如果將其相互連接,形成一個(gè)彼此協(xié)調(diào)的系統(tǒng),便成為分布式處理系統(tǒng),其工作由系統(tǒng)的后臺(tái)軟件完成。
分布式處理是在一個(gè)高級(jí)操作系統(tǒng)協(xié)調(diào)下共同完成同一任務(wù)的處理方式。分布式處理系統(tǒng)必須有能力在短時(shí)間內(nèi)動(dòng)態(tài)地組合成面向服務(wù)對(duì)象的系統(tǒng)。高級(jí)操作系統(tǒng)是分布式處理的關(guān)鍵。在分布式系統(tǒng)中無需使用完整的信息,高級(jí)操作系統(tǒng)根據(jù)這些分散的狀態(tài)信息進(jìn)行任務(wù)協(xié)調(diào)和資源再分配,各組成部分之間自主存在、沒有層次關(guān)系。
分布式信息檢索是建立在分布式處理系統(tǒng)之上的用戶檢索服務(wù)。是由檢索代理程序?qū)⒂脩舻臋z索任務(wù)同時(shí)提交給網(wǎng)絡(luò)上的多個(gè)主機(jī),由位于這些主機(jī)上的檢索程序分別獨(dú)立檢索并將檢索結(jié)果返回到檢索代理程序,經(jīng)過整理后顯示給用戶。
分布式系統(tǒng)具有潛在的有效性、高性能、高可靠性和低成本等方面的優(yōu)勢(shì),支持組織機(jī)構(gòu)信息管理模式從集中式向客戶機(jī)服務(wù)器方向發(fā)展,并能有效地實(shí)現(xiàn)組織內(nèi)部及組織之間在內(nèi)容和形式方面日益增長(zhǎng)的信息交流要求。分布式系統(tǒng)的特征包括遠(yuǎn)程、并發(fā)、異步、異構(gòu)、自治、進(jìn)化、可移動(dòng)、無全局狀態(tài)和局部失敗。這些特征是其功能優(yōu)勢(shì)的基礎(chǔ),同時(shí)也為實(shí)現(xiàn)技術(shù)提出了較高的要求。
一般分布式信息檢索適用于以下情況:相同類型數(shù)據(jù)庫(kù)較多且存儲(chǔ)位置比較分散,隸屬于不同的部門,相互之間是異構(gòu)的。隨著網(wǎng)上信息的不斷增多和分散,分布式信息檢索將會(huì)越來越受重視。2
原理一個(gè)簡(jiǎn)單的分布式檢索系統(tǒng)由多個(gè)數(shù)據(jù)集服務(wù)器(collection servers)和一個(gè)或多個(gè)代理處理器(broker)兩個(gè)部分組成。在有一個(gè)代理處理器的檢索系統(tǒng)中,用戶向broker提交檢索提問式,broker用該檢索提問式檢索數(shù)據(jù)集服務(wù)器的子集而完成信息的查找。子集中的每個(gè)信息庫(kù)服務(wù)器反饋給broker一個(gè)按相關(guān)度由大到小排列的信息列表。最后,broker對(duì)所有的結(jié)果列表進(jìn)行整合形成新的信息列表反饋給用戶。但是,由一個(gè)代理服務(wù)器進(jìn)行的分布式檢索系統(tǒng)存在一定的局限性:
(1)一個(gè)代理服務(wù)器難以管理大量的信息庫(kù)服務(wù)器。
(2)系統(tǒng)的可擴(kuò)展性差。
(3)軟件的移植性、互操作性、重用性及安全性差。
由于上述局限性,大多數(shù)分布式檢索系統(tǒng)都是由多個(gè)代理服務(wù)器組成的多級(jí)代理的分布式檢索系統(tǒng)。在一個(gè)分布式的檢索系統(tǒng)中有一個(gè)總代理系統(tǒng)和多個(gè)子代理系統(tǒng),每個(gè)子代理系統(tǒng)還可以有它的子代理,最底層的代理系統(tǒng)有一個(gè)或多個(gè)搜索引擎來對(duì)最底層的數(shù)據(jù)庫(kù)進(jìn)行檢索。1
技術(shù)由于不同的信息資源具有不同的數(shù)據(jù)庫(kù)結(jié)構(gòu),因此.在分布式環(huán)境下,對(duì)于異構(gòu)數(shù)據(jù)的檢索和訪問并不是想象中那么簡(jiǎn)單。解決分布式檢索的技術(shù)很多,如用于分布式數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)的分布式對(duì)象組件模型(DeOM)和公共對(duì)象請(qǐng)求代理構(gòu)架(CORBA)、用于解決分布式環(huán)境下數(shù)據(jù)庫(kù)之間異構(gòu)問題的Z39.50協(xié)議、P2P網(wǎng)絡(luò)結(jié)構(gòu)技術(shù)等。代理技術(shù)同樣也可實(shí)現(xiàn)分布式檢索,分布式環(huán)境下代理技術(shù)的檢索功能包括:
(1)從用戶或代理服務(wù)器那里接受提問。
(2)把接收來的提問翻譯成檢索軟件可識(shí)別的語言,即檢索提問式。
(3)確定哪些信息資源包含與檢索提問式最相關(guān)的信息。
(4)利用檢索提問式對(duì)確定的資源進(jìn)行檢索。
(5)收集相應(yīng)的檢索結(jié)果。
(6)對(duì)檢索結(jié)果進(jìn)行整理。
(7)把整理好的結(jié)果提供給用戶。
從代理技術(shù)的功能上看,在一個(gè)分布式檢索系統(tǒng)中,希望提供多個(gè)代理,當(dāng)前在分布式檢索中常用的代理技術(shù)是移動(dòng)代理技術(shù),又稱智能代理技術(shù)。移動(dòng)代理(mobile agent)是一種網(wǎng)絡(luò)計(jì)算技術(shù),通常是指使用代理通信協(xié)議進(jìn)行信息交換,以實(shí)現(xiàn)問題自動(dòng)解決的一種軟件程序。智能代理可以在用戶沒有明確具體要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)行各種復(fù)雜的工作,如信息查詢、篩選、談判、管理等,并能推測(cè)用戶的意圖,自主制訂、調(diào)整和執(zhí)行工作計(jì)劃。移動(dòng)代理動(dòng)態(tài)分布于遠(yuǎn)端主機(jī)并可以在不同主機(jī)上進(jìn)行移動(dòng),因此,移動(dòng)代理可以完成代理的上述多項(xiàng)功能,成為分布式檢索中常用的技術(shù)手段。1
特點(diǎn)利用分布式計(jì)算進(jìn)行信息檢索稱為分布式檢索。與并行檢索比較,分布式檢索的主要特點(diǎn)在于:
其一,分布式檢索通常處理的是地理位置分散的異構(gòu)數(shù)據(jù),不同地理位置計(jì)算機(jī)系統(tǒng)間通信的開銷比較大,因此,分布式檢索中應(yīng)該盡量避免不同地理位置計(jì)算機(jī)系統(tǒng)之間的通信操作。就通信本身而言,由于不同系統(tǒng)的異構(gòu)性,分布式檢索系統(tǒng)中通常采用TCP/IP協(xié)議來實(shí)現(xiàn)通信,而并行檢索中處理器之間的通信可以通過共享內(nèi)存來實(shí)現(xiàn)。
其二,分布式檢索的數(shù)據(jù)規(guī)模相對(duì)較大,每個(gè)節(jié)點(diǎn)的處理能力又不盡相同,因此,分布式檢索通常只選擇某些數(shù)據(jù)子集進(jìn)行檢索,而不是像并行檢索那樣,需要返回每個(gè)數(shù)據(jù)子集的結(jié)果。
其三,分布式檢索的對(duì)象的異構(gòu)性使得統(tǒng)一描述和訪問成為必須要考慮的問題。3
本詞條內(nèi)容貢獻(xiàn)者為:
李岳陽 - 副教授 - 江南大學(xué)