版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-核映射

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶(hù)提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

核映射的目的是希望提高數(shù)據(jù)的線性可分性,但只有核映射選擇適當(dāng)才能做到一點(diǎn)。1

定義核映射(nuclear map)一類(lèi)重要的映射,設(shè)X是局部凸空間,Y是巴拿赫空間,T是從X到Y(jié)的線性映射,如果T有如下表示

{fi(x)}是X上連續(xù)線性泛函序列,{yi}是Y中有界序列,則稱(chēng)T為核映射。

核方法所謂核方法,就是確定一個(gè)樣本空間中的核函數(shù),并將核空間中的線性運(yùn)算表示成內(nèi)積形式,然后用核函數(shù)來(lái)代替核空間中的內(nèi)積,從而將核空間中內(nèi)積所涉及的操作轉(zhuǎn)換成核函數(shù)的操作。核方法通過(guò)核函數(shù)的操作間接實(shí)現(xiàn)從樣本空間到核空間的非線性映射和核空間中的線性子空間降維,從而在本質(zhì)上實(shí)現(xiàn)樣本空間中的非線性運(yùn)算。

在核方法中,雖然有核映射和核空間的概念,但實(shí)際上不必真的去選擇核映射西,也不必真的去計(jì)算核空間中的內(nèi)積,只需選擇核函數(shù),然后用核函數(shù)去代替核空間中的內(nèi)積即可。因此,凡是能用內(nèi)積表示的線性算法都可通過(guò)核方法實(shí)現(xiàn)非線性變種。

對(duì)于基于核方法的子空間降維來(lái)說(shuō),要實(shí)現(xiàn)這種非線性的子空間算法,有兩個(gè)前提:一個(gè)是必須能將核空間中的子空間降維所涉及的線性運(yùn)算表示成內(nèi)積形式,這將在下面介紹;另一個(gè)是核函數(shù)的選擇或確定。

目的由于已知數(shù)據(jù)的特性,因而能給出適當(dāng)?shù)暮擞成?。但在?shí)際問(wèn)題中人們往往不能準(zhǔn)確獲知數(shù)據(jù)的特性,因此如何選擇合適的核映射是一個(gè)問(wèn)題。退一步來(lái)說(shuō),即使找到了合適的核映射將數(shù)據(jù)嵌入到核空間中,可要在核空間中實(shí)施線性子空間降維仍有問(wèn)題,這是因?yàn)楹丝臻g的維數(shù)很高甚至無(wú)窮,在核空間中直接實(shí)施線性子空間降維幾乎不可能。幸運(yùn)的是,這兩個(gè)問(wèn)題都可通過(guò)將核空間中的內(nèi)積轉(zhuǎn)化為樣本空間中的核函數(shù)來(lái)解決。

應(yīng)用將核函數(shù)與特征空間中的內(nèi)積關(guān)聯(lián)起來(lái)這一思想,開(kāi)始于Aizerman等關(guān)于勢(shì)函數(shù)方法的研究,這種思想直接引起了SVM方法的出現(xiàn)。接著將核函數(shù)方法與傳統(tǒng)的數(shù)據(jù)分析方法結(jié)合起來(lái)進(jìn)行研究就相繼出現(xiàn)了,如核主成
分分析、核Fish判別式、核聚類(lèi)方法等等。

SVM方法是將核方法與構(gòu)造最優(yōu)分類(lèi)器結(jié)合起來(lái)的一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化方法,通過(guò)建立一個(gè)合適的核映射,從而將原始樣本空間中的線性不可分問(wèn)題轉(zhuǎn)化為高維特征空間中的線性可分問(wèn)題。核聚類(lèi)方法利用Mercer核,把
輸入空問(wèn)中的樣本映射到高維特征空間,從而在特征空間中具有更好的聚類(lèi)分布性。理論分析和實(shí)驗(yàn)表明該方法是普適的,它通過(guò)非線性映射能夠較好地分辨、提取并放大有用的特征,從而實(shí)現(xiàn)更為準(zhǔn)確的聚類(lèi)。

雖然利用核函數(shù)可以避開(kāi)去具體構(gòu)造一個(gè)從原始樣本空間到特征空間的映射系統(tǒng),但在最常用的高斯核函數(shù)中需要利用樣本空間中任兩個(gè)樣品之差的范數(shù),所以,原始樣本空間的合適“距離”定義對(duì)于構(gòu)造一個(gè)合適的核映射就起重要作用了。找到一個(gè)比較合適的原始樣本空間的“距離”定義對(duì)于后續(xù)的分類(lèi)預(yù)測(cè)也很重要,因?yàn)樵贙最近鄰分類(lèi)中,尋找最近鄰的代表點(diǎn)就需要計(jì)算新數(shù)據(jù)點(diǎn)與代表數(shù)據(jù)點(diǎn)之間的“距離”。本章利用核映射將特征空間中的聚類(lèi)問(wèn)題和原始樣本空問(wèn)中的分類(lèi)問(wèn)題聯(lián)系起來(lái),提出一種基于核映射的屬性權(quán)重的自適應(yīng)優(yōu)化方法。通過(guò)UCI的兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn),表明這種方法在應(yīng)用于屬性選擇、確定屬性權(quán)重方面是有效的。2

本詞條內(nèi)容貢獻(xiàn)者為:

李嘉騫 - 博士 - 同濟(jì)大學(xué)