版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-局部圖像變換算子

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶(hù)提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

背景

目前計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像內(nèi)容表示方法分為基于全局特征的圖像內(nèi)容表示方法和基于局部特征的圖像內(nèi)容表示方法。為提高圖像內(nèi)容表示的性能,研究者提出了大量的圖像區(qū)域描述算法,其中部分描述算法是為全局特征設(shè)計(jì)的,部分是為局部特征設(shè)計(jì)的。由于全局特征和局部特征描述算子在本質(zhì)上沒(méi)有明顯差別,全局特征描述算子用于描述局部圖像區(qū)域即可作為局部特征描述算子,而局部特征描述算子用于描述整幅圖像,即可視為全局特征描述子。

圖像區(qū)域表示是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的重要問(wèn)題,圖像區(qū)域能力的強(qiáng)弱,直接決定著后續(xù)圖像內(nèi)容分類(lèi)、識(shí)別和檢索等高級(jí)處理的結(jié)果。一種較好的局部圖像算子應(yīng)該具備:重復(fù)性、判別性、局部不變性、富含信息、量化描述以及精確高效等特性。

局部圖像算子是圖像特征的局部表達(dá),它反映了圖像上具有的局部特殊性,適合于對(duì)圖像進(jìn)行匹配,檢索等應(yīng)用。而全局圖像算子更反映一些全局特征,如顏色分布,紋理特征,主要物體的形狀等。全局圖像算子容易受到環(huán)境的干擾,光照、旋轉(zhuǎn)、噪聲等不利因素都會(huì)影響全局特征。相比而言,局部圖像算子,往往對(duì)應(yīng)著圖像中的一些線(xiàn)條交叉,明暗變化的結(jié)構(gòu)中,受到的干擾也少。

基于分布統(tǒng)計(jì)的描述算子基于分布統(tǒng)計(jì)的描述算子使用直方圖表現(xiàn)圖像的不同外觀或形狀特點(diǎn)下面,下面為幾種應(yīng)用比較廣泛的基于分布統(tǒng)計(jì)的描述算子。1

SIFT描述算子可以用來(lái)描述任意的歸一化后的圖像區(qū)域,是一個(gè)3D梯度位置方向直方圖,位置被量化到4×4局部柵格,梯度角度分為8個(gè)方向,算子為4×4×8=128維。

GLOH 描述算子GLOH是SIFT描述子的一種延伸,為了增強(qiáng)其魯棒性和獨(dú)立性。以對(duì)數(shù)極坐標(biāo)在半徑方向建立三個(gè)帶(6,11,15)和8個(gè)角度方向,形成17個(gè)位置帶,中心帶在半徑方向不分塊。梯度方向量化為16個(gè)帶,形成272維矢量,并利用PCA降維。

Shape context描述算子與SIFT描述算子相似,但是基于邊緣 Shape context是一個(gè)邊緣點(diǎn)位置和方向的3D直方圖,以對(duì)數(shù)極坐標(biāo)在半徑方向建立三個(gè)帶(6,11,15)和4個(gè)角度方向,生成36維描述子。

Geometric histogram描述算子在一個(gè)區(qū)域內(nèi)描述邊緣分布直方圖。

PCA-SIFT描述算子以特征點(diǎn)周?chē)?9×39像素塊形成3024維矢量,用PCA降維36維。

Spin image描述算子是一個(gè)量化像素位置和強(qiáng)度的直方圖 ,在5個(gè)圓環(huán)中計(jì)算10個(gè)強(qiáng)度帶,生成50維算子。

基于矩的描述算子針對(duì)于一幅圖像,我們把像素的坐標(biāo)看成是一個(gè)二維隨機(jī)變量(X,Y),那么一幅灰度圖像可以用二維灰度密度函數(shù)來(lái)表示,因此可以用矩來(lái)描述灰度圖像的特征。矩和不變矩是一種常用的局部圖像算子。矩特征主要表征了圖像區(qū)域的幾何特征,又稱(chēng)為幾何矩, 由于其具有旋轉(zhuǎn)、平移、尺度等特性的不變特征,所以又稱(chēng)其為不變矩。它是一處高度濃縮的圖像特征。

基于濾波器的描述算子Koenderink 和 VanDoorn 提出利用"local jet"建模人類(lèi)視覺(jué)系統(tǒng)的感應(yīng)域,后來(lái)該描述方法被Schmid和Mohr用來(lái)描述圖像區(qū)域。該描述算法基本思想是通過(guò)對(duì)待描述圖像區(qū)域與高斯函數(shù)的各階導(dǎo)數(shù)實(shí)施卷積運(yùn)算而得到待描述區(qū)域的量化表示。Schaffalitzky和Zisserman利用復(fù)數(shù)濾波器進(jìn)行圖像表示。該描述子首先對(duì)待描述圖像區(qū)域進(jìn)行變換,以達(dá)到對(duì)光照和仿射具備一定的不變性,然后,在處理后的局部圖像區(qū)域上使用濾波器組濾波。除了上面提到的各濾波器,還有其他很多基于濾波器的圖像區(qū)域內(nèi)容表示方法,如Schaffalitzky和Zisserman提出了復(fù)數(shù)濾波器圖像區(qū)域描述子。1這些特征對(duì)圖像內(nèi)容的幾何形變以及一維仿射變換,都具有很好的魯棒性。[1]

微分算子一階微分邊緣算子,經(jīng)典算子比如:Roberts(羅伯特)、Prewitt(普魯伊特)、Sobel(索貝爾),Canny(坎尼)等,二階微分邊緣算子,LOG邊緣檢測(cè)算子。2

Sobel算子Sobel算子是典型的基于一階導(dǎo)數(shù)的邊緣檢測(cè)算子,由于該算子中引入了類(lèi)似局部平均的運(yùn)算,因此對(duì)噪聲具有平滑作用,能很好的消除噪聲的影響。Sobel算子對(duì)于象素的位置的影響做了加權(quán),與Prewitt算子、Roberts算子相比因此效果更好。

Sobel算子包含兩組3x3的矩陣,分別為橫向及縱向模板,將之與圖像作平面卷積,即可分別得出橫向及縱向的亮度差分近似值。

Robert算子是一種最簡(jiǎn)單的算子,是一種利用局部差分算子尋找邊緣的算子,他采用對(duì)角線(xiàn)方向相鄰兩象素之差近似梯度幅值檢測(cè)邊緣。檢測(cè)垂直邊緣的效果好于斜向邊緣,定位精度高,對(duì)噪聲敏感,無(wú)法抑制噪聲的影響。1963年,Roberts提出了這種尋找邊緣的算子。

Roberts邊緣算子是一個(gè)2x2的模板,采用的是對(duì)角方向相鄰的兩個(gè)像素之差。從圖像處理的實(shí)際效果來(lái)看,邊緣定位較準(zhǔn),對(duì)噪聲敏感。適用于邊緣明顯且噪聲較少的圖像分割。Roberts邊緣檢測(cè)算子是一種利用局部差分算子尋找邊緣的算子,Robert算子圖像處理后結(jié)果邊緣不是很平滑。經(jīng)分析,由于Robert算子通常會(huì)在圖像邊緣附近的區(qū)域內(nèi)產(chǎn)生較寬的響應(yīng),故采用上述算子檢測(cè)的邊緣圖像常需做細(xì)化處理,邊緣定位的精度不是很高。

Prewitt算子該算子與Sobel算子類(lèi)似,只是權(quán)值有所變化,但兩者實(shí)現(xiàn)起來(lái)功能還是有差距的,據(jù)經(jīng)驗(yàn)得知Sobel要比Prewitt更能準(zhǔn)確檢測(cè)圖像邊緣。

Prewitt算子是一種一階微分算子的邊緣檢測(cè),利用像素點(diǎn)上下、左右鄰點(diǎn)的灰度差,在邊緣處達(dá)到極值檢測(cè)邊緣,去掉部分偽邊緣,對(duì)噪聲具有平滑作用 。其原理是在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行鄰域卷積來(lái)完成的,這兩個(gè)方向模板一個(gè)檢測(cè)水平邊緣,一個(gè)檢測(cè)垂直邊緣。

對(duì)數(shù)字圖像f(x,y),Prewitt算子的定義如下:

G(i)=|[f(i-1,j-1)+f(i-1,j)+f(i-1,j+1)]-[f(i+1,j-1)+f(i+1,j)+f(i+1,j+1)]|

G(j)=|[f(i-1,j+1)+f(i,j+1)+f(i+1,j+1)]-[f(i-1,j-1)+f(i,j-1)+f(i+1,j-1)]|

則 P(i,j)=max[G(i),G(j)]或 P(i,j)=G(i)+G(j)

經(jīng)典Prewitt算子認(rèn)為:凡灰度新值大于或等于閾值的像素點(diǎn)都是邊緣點(diǎn)。即選擇適當(dāng)?shù)拈撝礣,若P(i,j)≥T,則(i,j)為邊緣點(diǎn),P(i,j)為邊緣圖像。這種判定是欠合理的,會(huì)造成邊緣點(diǎn)的誤判,因?yàn)樵S多噪聲點(diǎn)的灰度值也很大,而且對(duì)于幅值較小的邊緣點(diǎn),其邊緣反而丟失了。因?yàn)槠骄軠p少或消除噪聲,Prewitt梯度算子法就是先求平均,再求差分來(lái)求梯度。該算子與Sobel算子類(lèi)似,只是權(quán)值有所變化,但兩者實(shí)現(xiàn)起來(lái)功能還是有差距的,據(jù)經(jīng)驗(yàn)得知Sobel要比Prewitt更能準(zhǔn)確檢測(cè)圖像邊緣。

Canny算子該算子實(shí)現(xiàn)起來(lái)較為麻煩,Canny算子是一個(gè)具有濾波,增強(qiáng),檢測(cè)的多階段的優(yōu)化算子,在進(jìn)行處理前,Canny算子先利用高斯平滑濾波器來(lái)平滑圖像以除去噪聲,Canny分割算法采用一階偏導(dǎo)的有限差分來(lái)計(jì)算梯度幅值和方向,在處理過(guò)程中,Canny算子還將經(jīng)過(guò)一個(gè)非極大值抑制的過(guò)程,最后Canny算子還采用兩個(gè)閾值來(lái)連接邊緣。

Canny邊緣檢測(cè)算法:

step1: 用高斯濾波器平滑圖象;

step2: 用一階偏導(dǎo)的有限差分來(lái)計(jì)算梯度的幅值和方向;

step3: 對(duì)梯度幅值進(jìn)行非極大值抑制

step4: 用雙閾值算法檢測(cè)和連接邊緣

Laplacian算子拉普拉斯算子是一種二階微分算子,若只考慮邊緣點(diǎn)的位置而不考慮周?chē)幕叶炔顣r(shí)可用該算子進(jìn)行檢測(cè)。對(duì)于階躍狀邊緣,其二階導(dǎo)數(shù)在邊緣點(diǎn)出現(xiàn)零交叉,并且邊緣點(diǎn)兩旁的像素的二階導(dǎo)數(shù)異號(hào)。

Laplace算子是一種各向同性算子,二階微分算子,在只關(guān)心邊緣的位置而不考慮其周?chē)南笏鼗叶炔钪禃r(shí)比較合適。Laplace算子對(duì)孤立象素的響應(yīng)要比對(duì)邊緣或線(xiàn)的響應(yīng)要更強(qiáng)烈,因此只適用于無(wú)噪聲圖象。存在噪聲情況下,使用Laplacian算子檢測(cè)邊緣之前需要先進(jìn)行低通濾波。所以,通常的分割算法都是把Laplacian算子和平滑算子結(jié)合起來(lái)生成一個(gè)新的模板。

Laplacian算子一般不以其原始形式用于邊緣檢測(cè),因?yàn)槠渥鳛橐粋€(gè)二階導(dǎo)數(shù),Laplacian算子對(duì)噪聲具有無(wú)法接受的敏感性;同時(shí)其幅值產(chǎn)生算邊緣,這是復(fù)雜的分割不希望有的結(jié)果;最后Laplacian算子不能檢測(cè)邊緣的方向;所以L(fǎng)aplacian在分割中所起的作用包括:(1)利用它的零交叉性質(zhì)進(jìn)行邊緣定位;(2)確定一個(gè)像素是在一條邊緣暗的一面還是亮的一面;一般使用的是高斯型拉普拉斯算子(Laplacian of a Gaussian,LoG),由于二階導(dǎo)數(shù)是線(xiàn)性運(yùn)算,利用LoG卷積一幅圖像與首先使用高斯型平滑函數(shù)卷積改圖像,然后計(jì)算所得結(jié)果的拉普拉斯是一樣的。所以在LoG公式中使用高斯函數(shù)的目的就是對(duì)圖像進(jìn)行平滑處理,使用Laplacian算子的目的是提供一幅用零交叉確定邊緣位置的圖像;圖像的平滑處理減少了噪聲的影響并且它的主要作用還是抵消由Laplacian算子的二階導(dǎo)數(shù)引起的逐漸增加的噪聲影響。

LoG算子也就是 Laplace of Gaussian function(高斯拉普拉斯函數(shù))。常用于數(shù)字圖像的邊緣提取和二值化。LoG 算子源于D.Marr計(jì)算視覺(jué)理論中提出的邊緣提取思想, 即首先對(duì)原始圖像進(jìn)行最佳平滑處理, 最大程度地抑制噪聲, 再對(duì)平滑后的圖像求取邊緣。

發(fā)展現(xiàn)狀及趨勢(shì)局部圖像算子的提取通常是作為計(jì)算機(jī)視覺(jué)與數(shù)字圖像處理中許多問(wèn)題的第一步,例如圖像分類(lèi)、圖像檢索、寬基線(xiàn)匹配等,提取特征的優(yōu)劣直接影響任務(wù)的最終性能。因此,局部特征提取方法具有重要的研究?jī)r(jià)值。然而,圖像經(jīng)常發(fā)生尺度、平移、旋轉(zhuǎn)、光照、視角以及模糊等變化,特別是在實(shí)際應(yīng)用場(chǎng)景中,圖像不可避免的會(huì)存在較大噪聲干擾、復(fù)雜背景和較大的目標(biāo)姿態(tài)變化。這就給圖像局部特征提取問(wèn)題帶來(lái)了更大的挑戰(zhàn)。因此,局部圖像算子研究仍然具有重要的理論意義和應(yīng)用價(jià)值,值得研究者繼續(xù)關(guān)注。2