版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-信息檢索

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

信息檢索(Information Retrieval)是用戶進(jìn)行信息查詢和獲取的主要方式,是查找信息的方法和手段。狹義的信息檢索僅指信息查詢(Information Search)。即用戶根據(jù)需要,采用一定的方法,借助檢索工具,從信息集合中找出所需要信息的查找過(guò)程。廣義的信息檢索是信息按一定的方式進(jìn)行加工、整理、組織并存儲(chǔ)起來(lái),再根據(jù)信息用戶特定的需要將相關(guān)信息準(zhǔn)確的查找出來(lái)的過(guò)程。又稱信息的存儲(chǔ)于檢索。一般情況下,信息檢索指的就是廣義的信息檢索。

起源信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開(kāi)始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來(lái);脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)

相繼研制成功并商業(yè)化,20世紀(jì)60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)的推動(dòng)下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的系統(tǒng)之一。

定義信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲(chǔ)與檢索”,是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶的需要找出有關(guān)信息的過(guò)程。狹義的信息檢索為“信息存儲(chǔ)與檢索”的后半部分,通常稱為“信息查找”或“信息搜索”,是指從信息集合中找出用戶所需要的有關(guān)信息的過(guò)程。狹義的信息檢索包括3個(gè)方面的含義:了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。

由信息檢索原理可知,信息的存儲(chǔ)是實(shí)現(xiàn)信息檢索的基礎(chǔ)。這里要存儲(chǔ)的信息不僅包括原始文檔數(shù)據(jù),還包括圖片、視頻和音頻等,首先要將這些原始信息進(jìn)行計(jì)算機(jī)語(yǔ)言的轉(zhuǎn)換,并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中,否則無(wú)法進(jìn)行機(jī)器識(shí)別。待用戶根據(jù)意圖輸入查詢請(qǐng)求后,檢索系統(tǒng)根據(jù)用戶的查詢請(qǐng)求在數(shù)據(jù)庫(kù)中搜索與查詢相關(guān)的信息,通過(guò)一定的匹配機(jī)制計(jì)算出信息的相似度大小,并按從大到小的順序?qū)⑿畔⑥D(zhuǎn)換輸出。

類型**(一)按存儲(chǔ)與檢索對(duì)象劃分,信息檢索可以分為:**

文獻(xiàn)檢索

數(shù)據(jù)檢索

事實(shí)檢索

以上三種信息檢索類型的主要區(qū)別在于:數(shù)據(jù)檢索和事實(shí)檢索是要檢索出包含在文獻(xiàn)中的信息本身,而文獻(xiàn)檢索則檢索出包含所需要信息的文獻(xiàn)即可。

(二)按存儲(chǔ)的載體和實(shí)現(xiàn)查找的技術(shù)手段為標(biāo)準(zhǔn)劃分:

手工檢索

機(jī)械檢索

計(jì)算機(jī)檢索

其中發(fā)展比較迅速的計(jì)算機(jī)檢索是“網(wǎng)絡(luò)信息檢索”,

也即網(wǎng)絡(luò)信息搜索,是指互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端,通過(guò)特定的網(wǎng)絡(luò)搜索工具或是通過(guò)瀏覽的方式,查找并獲取信息的行為。

(三)按檢索途徑劃分:

直接檢索

間接檢索

主要環(huán)節(jié)信息內(nèi)容分析與編碼,產(chǎn)生信息記錄及檢索標(biāo)識(shí)。

組織存貯,將全部記錄按文件、數(shù)據(jù)庫(kù)等形式組成有序的信息集合。

用戶提問(wèn)處理和檢索輸出。關(guān)鍵部分是信息提問(wèn)與信息集合的匹配和選擇,即對(duì)給定提問(wèn)與集合中的記錄進(jìn)行相似性比較,根據(jù)一定的匹配標(biāo)準(zhǔn)選出有關(guān)信息。它按對(duì)象分為文獻(xiàn)檢索、數(shù)據(jù)檢索和事實(shí)檢索;按設(shè)備分為手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索。由一定的設(shè)備和信息集合構(gòu)成的服務(wù)設(shè)施稱為信息檢索系統(tǒng),如穿孔卡片系統(tǒng)、聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、多媒體檢索系統(tǒng)等。信息檢索最初應(yīng)用于圖書館和科技信息機(jī)構(gòu),后來(lái)逐漸擴(kuò)大到其他領(lǐng)域,并與各種管理信息系統(tǒng)結(jié)合在一起。與信息檢索有關(guān)的理論、技術(shù)和服務(wù)構(gòu)成了一個(gè)相對(duì)獨(dú)立的知識(shí)領(lǐng)域,是信息學(xué)的一個(gè)重要分支,并與計(jì)算機(jī)應(yīng)用技術(shù)相互交叉。

熱點(diǎn)智能檢索或知識(shí)檢索

傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢,通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典,形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國(guó)”的區(qū)分,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。知識(shí)挖掘

主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。知識(shí)挖掘包括摘要、分類(聚類)和相似性檢索等方面。

自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索中,自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度,在信息服務(wù)中,自動(dòng)摘要有助于多種形式的內(nèi)容分發(fā),如發(fā)往PDA、手機(jī)等。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類樹,再根據(jù)文檔的內(nèi)容特征將其歸類;自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。自動(dòng)分類(聚類)在信息組織、導(dǎo)航方面非常有用。

異構(gòu)信息整合檢索和全息檢索

在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,信息檢索系統(tǒng)的開(kāi)放性和集成性要求越來(lái)越高,需要能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語(yǔ)種信息的檢索;支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;和關(guān)系數(shù)據(jù)庫(kù)檢索的無(wú)縫集成以及其他開(kāi)放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從實(shí)踐來(lái)講,發(fā)展到異構(gòu)信息整合檢索的層面,基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待取得進(jìn)一步突破。

另外,從工程實(shí)踐角度,綜合采用內(nèi)存和外部存儲(chǔ)的多級(jí)緩存、分布式群集和負(fù)載均衡技術(shù)也是信息檢索技術(shù)發(fā)展的重要方面。

隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,企業(yè)和個(gè)人可獲取、需處理的信息量呈爆發(fā)式增長(zhǎng),而且其中絕大部分都是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn),而信息檢索作為內(nèi)容管理的核心支撐技術(shù),隨著內(nèi)容管理的發(fā)展和普及,亦將應(yīng)用到各個(gè)領(lǐng)域,成為人們?nèi)粘9ぷ魃畹拿芮谢锇椤?/p>

檢索原因1.信息檢索是獲取知識(shí)的捷徑

美國(guó)普林斯頓大學(xué)物理系一個(gè)年輕大學(xué)生名叫約瀚·菲利普,在圖書館里借閱有關(guān)公開(kāi)資料,僅用四個(gè)月時(shí)間,就畫出一張制造原子彈的設(shè)計(jì)圖。他設(shè)計(jì)的原子彈,體積小(棒球大小)、重量輕(7.5公斤)、威力大(相當(dāng)廣島原子彈3/4的威力),造價(jià)低(當(dāng)時(shí)僅需兩千美元),致使一些國(guó)家(法國(guó)、巴基斯坦等)紛紛致函美國(guó)大使館,爭(zhēng)相購(gòu)買他的設(shè)計(jì)拷貝。

二十世紀(jì)七十年代,美國(guó)核專家泰勒收到一份題為《制造核彈的方法》的報(bào)告,他被報(bào)告精湛的技術(shù)設(shè)計(jì)所吸引,驚嘆地說(shuō):“至今我看到的報(bào)告中,它是最詳細(xì)、最全面的一份?!钡顾鼮轶@異的是,這份報(bào)告竟出于哈佛大學(xué)經(jīng)濟(jì)專業(yè)的青年學(xué)生之手,而這個(gè)四百多頁(yè)的技術(shù)報(bào)

告的全部信息來(lái)源又都是從圖書館那些極為平常的、完全公開(kāi)的圖書資料中所獲得的。

2 .信息檢索是科學(xué)研究的向?qū)?/strong>

美國(guó)在實(shí)施“阿波羅登月計(jì)劃”中,對(duì)阿波羅飛船的燃料箱進(jìn)行壓力實(shí)驗(yàn)時(shí),發(fā)現(xiàn)甲醇會(huì)引起鈦應(yīng)力腐蝕,為此付出了數(shù)百萬(wàn)美元來(lái)研究解決這一問(wèn)題,事后查明,早在十多年前,就有人研究出來(lái)了,方法非常簡(jiǎn)單,只需在甲醇中加入2%的水即可,檢索這篇文獻(xiàn)的時(shí)間是10多分鐘。在科研開(kāi)發(fā)領(lǐng)域里,重復(fù)勞動(dòng)在世界各國(guó)都不同程度地存在。據(jù)統(tǒng)計(jì),美國(guó)每年由于重復(fù)研究所造成的損失,約占全年研究經(jīng)費(fèi)的38%,達(dá)20億美元之巨。日本有關(guān)化學(xué)化工方面的研究課題與國(guó)外重復(fù)的,大學(xué)占40%、民間占47%、國(guó)家研究機(jī)構(gòu)占40%,平均重復(fù)率在40%以上;中國(guó)的重復(fù)率則更高。

3.信息檢索是終身教育的基礎(chǔ)

學(xué)校培養(yǎng)學(xué)生的目標(biāo)是學(xué)生的智能:包括自學(xué)能力、研究能力、思維能力、表達(dá)能力和組織管理能力。

UNESCO提出,教育已擴(kuò)大到一個(gè)人的整個(gè)一生,認(rèn)為唯有全面的終身教育才能夠培養(yǎng)完善的人,可以防止知識(shí)老化,不斷更新知識(shí),適應(yīng)當(dāng)代信息社會(huì)發(fā)展的需求。

四個(gè)要素1 信息檢索的前提----信息意識(shí)

所謂信息意識(shí),是人們利用信息系統(tǒng)獲取所需信息的內(nèi)在動(dòng)因,具體表現(xiàn)為對(duì)信息的敏感性、選擇能力和消化吸收能力,從而判斷該信息是否能為自己或某一團(tuán)體所利用,是否能解決現(xiàn)實(shí)生活實(shí)踐中某一特定問(wèn)題等一系列的思維過(guò)程。信息意識(shí)含有信息認(rèn)知、信息情感和信息行為傾向三個(gè)層面。

信息素養(yǎng)(素質(zhì))(Information Literacy)一詞最早是由美國(guó)信息產(chǎn)業(yè)協(xié)會(huì)主席Paul Zurkowski在1974年給美國(guó)政府的報(bào)告中提出來(lái)的。他認(rèn)為:信息素質(zhì)是人們?cè)诠ぷ髦羞\(yùn)用信息、學(xué)習(xí)信息技術(shù)、利用信息解決問(wèn)題的能力。

2.信息檢索的基礎(chǔ)----信息源

信息源定義:在聯(lián)合國(guó)教科文組織出版的《文獻(xiàn)術(shù)語(yǔ)中》,將信息源定義為:個(gè)人為滿足其信息需要而獲得信息的來(lái)源,稱為信息源。1

信息源類型:

按照表現(xiàn)方式劃分:口語(yǔ)信息源、體語(yǔ)信息源、實(shí)物信息源和文獻(xiàn)信息源。1

按照數(shù)字化記錄形式劃分:書目信息源、普通圖書信息源、工具書信息源、報(bào)紙、期刊信息源、特種文獻(xiàn)信息源、數(shù)字圖書館信息源、搜索引擎信息源。1

按文獻(xiàn)載體分----印刷型、縮微型、機(jī)讀型、聲像型

按文獻(xiàn)內(nèi)容和加工程度分--一次信息、二次信息、三次信息

按出版形式分----圖書、報(bào)刊、研究報(bào)告、會(huì)議信息、專利信 息、統(tǒng)計(jì)數(shù)據(jù)、政府出版物、檔案、學(xué)位論文、標(biāo)準(zhǔn)信息(它們被認(rèn)為是十大信息源,其中后8種被稱為特種文獻(xiàn)。教育信息資源主要分布在教育類圖書、專業(yè)期刊、學(xué)位論文等不同類型的出版物中)

3.信息檢索的核心----信息獲取能力

1.了解各種信息來(lái)源

2.掌握檢索語(yǔ)言

3. 熟練使用檢索工具

4.能對(duì)檢索效果進(jìn)行判斷和評(píng)價(jià)

判斷檢索效果的兩個(gè)指標(biāo):

查全率=被檢出相關(guān)信息量/相關(guān)信息總量(%)

查準(zhǔn)率=被檢出相關(guān)信息量/被檢出信息總量(%)

4.信息檢索的關(guān)鍵:信息利用

社會(huì)進(jìn)步的過(guò)程就是一個(gè)知識(shí)不斷的生產(chǎn)—流通—再生產(chǎn)的過(guò)程。

為了全面、有效地利用現(xiàn)有知識(shí)和信息,在學(xué)習(xí)、科學(xué)研究和生

活過(guò)程中,信息檢索的時(shí)間比例逐漸增高。

獲取學(xué)術(shù)信息的最終目的是通過(guò)對(duì)所得信息的整理、分析、歸納和總結(jié),根據(jù)自己學(xué)習(xí)、研究過(guò)程中的思考和思路,將各種信息進(jìn)行重組,船造出新的知識(shí)和信息,從而達(dá)到信息激活和增值的目的。

檢索方法信息檢索方法包括:普通法、追溯法和分段法。1.普通法是利用書目、文摘、索引等檢索工具進(jìn)行文獻(xiàn)資料查找的方法。運(yùn)用這種方法的關(guān)鍵在于熟悉各種檢索工具的性質(zhì)、特點(diǎn)和查找過(guò)程,從不同角度查找。普通法又可分為順檢法和倒檢法。順檢法是從過(guò)去到現(xiàn)在按時(shí)間順序檢索,費(fèi)用多、效率低;倒檢法是逆時(shí)間順序從近期向遠(yuǎn)期檢索,它強(qiáng)調(diào)近期資料,重視當(dāng)前的信息,主動(dòng)性強(qiáng),效果較好。

2.追溯法是利用已有文獻(xiàn)所附的參考文獻(xiàn)不斷追蹤查找的方法,在沒(méi)有檢索工具或檢索工具不全時(shí),此法可獲得針對(duì)性很強(qiáng)的資料,查準(zhǔn)率較高,查全率較差。

3.分段法是追溯法和普通法的綜合,它將兩種方法分期、分段交替使用,直至查到所需資料為止。

檢索的一般程序(一)分析問(wèn)題

(二)選擇檢索工具

提供線索的指示型檢索工具(二次文獻(xiàn)):書目、館藏目錄、索引、文摘、工具書指南;

提供具體信息的參考工具(三次文獻(xiàn)):詞典、引語(yǔ)工具書、百科全書、類書、政書、傳記資料、手冊(cè)、機(jī)構(gòu)名錄、地理資料、統(tǒng)計(jì)資料、年鑒、表譜圖冊(cè)、政府文獻(xiàn)。

(三)檢索工具的使用

(四)獲取原文

(五)對(duì)檢索結(jié)果的分析

(六)更改檢索策略

本詞條內(nèi)容貢獻(xiàn)者為:

王強(qiáng) - 副教授 - 西南大學(xué)