Feature Engineering (特徵工程)
特徵工程顧名思義就是說,將原本的資料進行加工。找出其中共同關聯性
像是這裡就是對名稱進行加工,透過 "," 將名稱前面的稱謂切出來。
至所以會這麼做的原因是因為,我們會對不同的社會階層對應不一樣的稱呼
像是 醫師、教師、律師、機師等等的。
古時候如果有爵位或是社會位階較高,會有不同的稱呼方式 EX: Sir,Doc等等
這邊就是將這些等等區隔出來,不過如果太過細分反倒會造成反效果。
另外也針對船艙做一樣的處裡,不同的船艙也間接代表不一樣的社會階層
這也直接影響生存率
補齊缺少資料
透過以上的加工,可以將這些特徵一起丟進 Random Forest裡
可以用Random Forest 推測缺少的年紀資料。
明天再來講解 隨機森林的兩個主流演算法。