一、自然語(yǔ)言處理是什么?
自然語(yǔ)言處理說(shuō)白了,就是讓機(jī)器去幫助我們完成一些語(yǔ)言層面的事情,典型的比如:情感分析、文本摘要、自動(dòng)問(wèn)答等等。我們?nèi)粘?chǎng)景中比較常見到的類似Siri、微軟小冰之類的,這些的基礎(chǔ)都是自然語(yǔ)言處理,另外還有一些語(yǔ)音處理,這就暫且不表了。總之,你看到的機(jī)器與人利用語(yǔ)言交互,用機(jī)器模擬人腦閱讀,對(duì)話,評(píng)論等等這些的基礎(chǔ)都是自然語(yǔ)言處理的范疇之內(nèi)。
二、自然語(yǔ)言處理怎么學(xué)?
自然語(yǔ)言處理的實(shí)際入門步驟來(lái)說(shuō),假如單單從應(yīng)用來(lái)說(shuō),我覺得還是直接先從簡(jiǎn)單的應(yīng)用搞起更好一點(diǎn),上來(lái)就是理論的話可能對(duì)一些人還是比較枯燥,我認(rèn)為一個(gè)好的過(guò)程是:實(shí)踐-理論-實(shí)踐,先由實(shí)踐搞起,加深興趣,然后理論研究,深化理解,后繼續(xù)實(shí)踐,知行合一。閑言少敘,下面說(shuō)下自己的入門步驟:
1、分詞
2、關(guān)鍵詞提取
3、詞向量
4、文本分類
5、自動(dòng)問(wèn)答
三、自然語(yǔ)言處理的深入
談到自然語(yǔ)言處理的深入,這個(gè)可以做的就比較多了,上面列舉的各個(gè)方面都與比較大的優(yōu)化空間。但總體而言,的幾個(gè)問(wèn)題在于分詞、詞向量的轉(zhuǎn)化以及文本特征的提取,這也是一定程序上困擾我們繼續(xù)提高的幾大阻礙。拿分詞來(lái)說(shuō),無(wú)論是基于詞典和算法的分詞還是目前基于深度學(xué)習(xí)的分詞方式,都只能說(shuō)一定程度上進(jìn)行分詞實(shí)現(xiàn),想要達(dá)到人腦的分詞效果,實(shí)際上還是前路漫漫;詞向量的轉(zhuǎn)化在一定程序上也依賴于大量的語(yǔ)料,而我們也不可能在訓(xùn)練模型時(shí)囊括所有的詞語(yǔ),所有的語(yǔ)境,所有的文本,這些也都是不現(xiàn)實(shí)的,只能說(shuō)時(shí)優(yōu)化算法或者選擇一種更好的方式;文本特征的提取也是一個(gè)我們?cè)诤笃谶M(jìn)行學(xué)習(xí)過(guò)程中一個(gè)繞不過(guò)去的坎。總而言之,自然語(yǔ)言處理說(shuō)簡(jiǎn)單也簡(jiǎn)單,說(shuō)難也難,就看你想要達(dá)到什么樣的高度。