版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-情感分析器

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

目的

通常來說,情感分析的目的是為了找出說話者/作者在某些話題上或者針對一個(gè)文本兩極的觀點(diǎn)的態(tài)度。這個(gè)態(tài)度或許是他或她的個(gè)人判斷或是評估,也許是他當(dāng)時(shí)的情感狀態(tài)(就是說,作者在做出這個(gè)言論時(shí)的情緒狀態(tài)),或是作者有意向的情感交流(就是作者想要讀者所體驗(yàn)的情緒)。

概念這是計(jì)算機(jī)世界的一個(gè)尚未開發(fā)的前沿:將各種人類情感轉(zhuǎn)化成實(shí)實(shí)在在的數(shù)據(jù)。

情感分析(Sentiment analysis),又稱傾向性分析,意見抽?。∣pinion extraction),意見挖掘(Opinion mining),情感挖掘(Sentiment mining),主觀分析(Subjectivity analysis),它是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,如從評論文本中分析用戶對“數(shù)碼相機(jī)”的“變焦、價(jià)格、大小、重量、閃光、易用性”等屬性的情感傾向。2

研究方法監(jiān)督學(xué)習(xí)目前,基于監(jiān)督學(xué)習(xí)的情感分析仍然是主流,除了(Li et al.,2009)基于非負(fù)矩陣三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遺傳算法(Genetic Algorithm)的情感分析之外,使用的最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯,k最近鄰(k-Nearest Neighbor,k-NN),最大熵和支持向量機(jī)的。而對于算法的改進(jìn)主要在對文本的預(yù)處理階段。

基于規(guī)則/無監(jiān)督學(xué)習(xí)和基于監(jiān)督學(xué)習(xí)的情感分析相比,基于規(guī)則和無監(jiān)督學(xué)習(xí)方面的研究不是很多。除了(Turney,2002)之外,(朱嫣嵐 et al.,2002)利用HowNet對中文詞語語義的進(jìn)行了情感傾向計(jì)算。(婁德成 et al.,2006)利用句法結(jié)構(gòu)和依存關(guān)系對中文句子語義進(jìn)行了情感分析,(Hiroshi et al.,2004)通過改造一個(gè)基于規(guī)則的機(jī)器翻譯器實(shí)現(xiàn)日文短語級情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基礎(chǔ)上通過對于中文文本特征的深入分析以及引入迭代機(jī)制從而在很大程度上提高了無監(jiān)督學(xué)習(xí)情感分析的準(zhǔn)確率。

跨領(lǐng)域情感分析跨領(lǐng)域情感分析在情感分析中是一個(gè)新興的領(lǐng)域,目前在這方面的研究不是很多,主要原因是目前的研究還沒有很好的解決如何尋找兩個(gè)領(lǐng)域之間的一種映射關(guān)系,或者說如何尋找兩個(gè)領(lǐng)域之間特征權(quán)值之間的平衡關(guān)系。對于跨領(lǐng)域情感分析的研究開始于(Blitzer et al.,2007)將結(jié)構(gòu)對應(yīng)學(xué)習(xí)(Structural Correspondence Learning,SCL)引入跨領(lǐng)域情感分析,SCL是一種應(yīng)用范圍很廣的跨領(lǐng)域文本分析算法,SCL的目的是將訓(xùn)練集上的特征盡量對應(yīng)到測試集中。(Tan et al.,2009)將SCL引入了中文跨領(lǐng)域情感分析中。(Tan2 et al.,2009)提出將樸素貝葉斯和EM算法的一種半監(jiān)督學(xué)習(xí)方法應(yīng)用到了跨領(lǐng)域的情感分析中。(Wu et al.,2009)將基于EM的思想將圖排序(Graph Ranking)算法應(yīng)用到跨領(lǐng)域的情感分析中,圖排序算法可以認(rèn)為是一種迭代的k-NN

研究現(xiàn)狀情感分析自從2002年由Bo Pang提出之后,獲得了很大程度的研究的,特別是在在線評論的情感傾向性分析上獲得了很大的發(fā)展,目前基于在線評論文本的情感傾向性分析的準(zhǔn)確率最高能達(dá)到90%以上,但是由于深層情感分析必然涉及到語義的分析,以及文本中情感轉(zhuǎn)移現(xiàn)象的經(jīng)常出現(xiàn),所以基于深層語義的情感分析以及篇章級的情感分析進(jìn)展一直不是很大。情感分析還存在的一個(gè)問題是尚未存在一個(gè)標(biāo)準(zhǔn)的情感測試語料庫,雖然Bo Pang實(shí)驗(yàn)用的電影評論數(shù)據(jù)集以及Theresa Wilson等建立的MPQA是目前廣泛使用的兩類情感分析數(shù)據(jù)集,但是并沒有公認(rèn)的標(biāo)準(zhǔn)加以確認(rèn)。

目前研究主要集中于情感詞的正面負(fù)面分類,標(biāo)注語料,情感詞的提取等。

情感分析器Twitter情感分析器通過Twitter用戶情感預(yù)測股票走勢,2012年5月,世界首家基于社交媒體的對沖基金 Derwent Capital Markets 在屢次跳票后終于上線。它會即時(shí)關(guān)注Twitter 中的公眾情緒指導(dǎo)投資。正如基金創(chuàng)始人保羅·郝?。≒aul Hawtin)表示:“長期以來,投資者已經(jīng)廣泛地認(rèn)可金融市場由恐懼和貪婪驅(qū)使,但我們從未擁有一種技術(shù)或數(shù)據(jù)來量化人們的情感?!币恢睘榻鹑谑袌龇抢硇耘e動(dòng)所困惑的投資者,終于有了一扇可以了解心靈世界的窗戶——那便是 Twitter 每天浩如煙海的推文,在一份八月份的報(bào)道中顯示,利用 Twitter 的對沖基金 Derwent Capital Markets 在首月的交易中已經(jīng)盈利,它以1.85%的收益率,讓平均數(shù)只有0.76%的其他對沖基金相形見絀。類似的工作還有預(yù)測電影票房、選舉結(jié)果等,均是將公眾情緒與社會事件對比,發(fā)現(xiàn)一致性,并用于預(yù)測,如將“冷靜CLAM”情緒指數(shù)后移3天后和道瓊斯工業(yè)平均指數(shù)DIJA驚人一致。3

自然語言處理工具包spaCyspaCy是一個(gè)Python自然語言處理工具包,誕生于2014年年中,號稱“Industrial-Strength Natural Language Processing in Python”,是具有工業(yè)級強(qiáng)度的Python NLP工具包。spaCy里大量使用了Cython來提高相關(guān)模塊的性能,這個(gè)區(qū)別于學(xué)術(shù)性質(zhì)更濃的Python NLTK,因此具有了業(yè)界應(yīng)用的實(shí)際價(jià)值。4

文本情感分析的應(yīng)用文本情感分析的應(yīng)用非常廣泛,可以應(yīng)用到許多行業(yè),其中最重要的幾個(gè)應(yīng)用包括:實(shí)現(xiàn)情感機(jī)器人,自動(dòng)提供抉擇支持,網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)分析,信息預(yù)測等。