機器學習(Machine Learning)本質上就是找出一個函式(Function),
讓我們輸入(Input)資料後,可以輸出(Output)我們想要的資料結果。
例如語音辨識(Speech Recognition)本質上就是希望機器學習上找出一個
函式,我們希望輸入一段語音資料給此函式後,函式可以輸出語音辨識結
果文字。影像辨識(Image Recognition)本質上也是希望機器學習上找出一
個函式,我們希望輸入一張影像給此函式後,函式可以輸出影像中有什麼
物體之文字。AI下圍棋(AlphaGo)的本質上也是希望機器學習上找出一個
函式,我們希望輸入棋盤上黑子、白子的位置給此函式後,函式可以輸出
下一步落子的位置。
只是這些應用,我們要找的函式都是非常非常複雜的,光靠人類是無法推
導出來的,只能靠機器學習(Machine Learning)去找出來。
機器學習的任務,函式的種類
依照我們要找的函式的不同,機器學習也分成不同的任務。
如果今天你想要輸出一個數值,那這個任務叫做迴歸(Regression)。例如用今天的PM 2.5的相關資料預測明天的PM 2.5數值; 還有股價預
測、房價預測之類的應用,本質上都是迴歸(Regression)問題。
如果今天你想要輸出一個指定好的選項,那這個任務叫做分類(Classification)。例如訓練機器判斷郵件是否為垃圾郵件,Yes or No,也是個分類問題。
命名實體辨識(Named Entity Recognition)的本質
在自然語言處理(Natural Language Processing)領域中,假設我們在一段句子,
小華2022/02/23在台北菜市場附近買了7顆西瓜。
想要把人名、日期、地名、物品、物品數量等詞彙抓取出來,讓人一目了然,這其實就是自然語言處理(Natural Language Processing)領域中的命名實體辨識NER(Named Entity Recognition)問題、又稱專有名詞辨識,是資訊抽取(Information Extraction, IE)的基本任務之一。
要解決命名實體辨識NER問題,如果是使用深度學習(Deep Learning)的方法,可以利用BERT模型去處理,NER問題其實本質上就是個分類(Classification)問題,其實就是訓練好模型(model)後,利用模型(model)去預測(Predict)這個字(word)是哪個類別的機率高,有了每個字的類別後,再把相同類別的字的詞性合併成詞,這樣就可以知道這個詞是屬於哪個類別了。
結論(Conclusion):
想不到吧! AI下圍棋(AlphaGo)的問題和NLP中命名實體辨識NER的問題本質上都是個分類(Classification)問題,其實大部分
問題如果你知道它的本質,基本上都可以用很簡單的方法去解決它,只是大部分人都會被表面的問題所蒙蔽,無法知道問題的本
質,所以當然無法解決問題。