商業分析資料探勘筆記 05/03

本文章純粹用來記錄當學期修課時所做的一些上課筆記,因為打成文字太費時間,所以只放上筆記的圖片。

  • 👇 本次筆記只有1張,老師小遲到XD

前半段接續上次的貝氏定理,貝氏定理得出的機率結果可以做為事件發生可能性的排序依據,但不能說它就是真實的事件發生機率,因為證據未必是彼此獨立而不交互影響。

要訣: Sensitivity (TP) 可以想成是有病而真的有病,Specificity (TN) 可以想成是沒病被檢測出沒病。

  • 👇 Representing and mining text 文本分析

後半段的課程介紹的是文本分析跟通識課教過的NLP自然語言處理很有關係。
文本自身是非結構化的資料,要先轉換成結構化資料才能作分析。

  • 👇 Terminology 文本分析的術語

Document: 單一文本、Corpus: 一堆文本所成集合

  • 👇 其中一種文字結構化轉換方法: Bag of words

忽略文法、字詞排序的規則等,每個字都被視為潛在的"重要"關鍵字,主要是利用字詞在文本內的出現次數(count/per word)進行後續的文字結構化編碼。

  • 👇 統計字詞在文本中的出現次數

下面的統計次數可以發現有忽略 stop words、時式變化。

分享到