本文對(duì)Kaggle中的Titanic事故中乘客遇難情況進(jìn)行了相應(yīng)的分析和可視化采用邏輯回歸對(duì)他們的遇難情況進(jìn)行了預(yù)測(cè)。最后得到的預(yù)測(cè)結(jié)果不算很好但是本文大致是一個(gè)較為完整的數(shù)據(jù)分析和預(yù)測(cè)流程。
建立模型時(shí)我們需要的特征往往都是數(shù)值型因此我們需要將對(duì)相應(yīng)屬性轉(zhuǎn)換為one-hot編碼表示首先我們打印出數(shù)據(jù)集的前5行看看哪些特征需要進(jìn)行轉(zhuǎn)換
將模型中每個(gè)特征的系數(shù)打印出來(lái)分析可以看到頭等艙可以很好的提升獲救率而三等艙與獲救率則有著明顯的負(fù)相關(guān)女性與獲救率之間則有著明顯的正相關(guān)等。
之前我們直接在測(cè)試集上進(jìn)行了預(yù)測(cè)為了優(yōu)化模型我們可以首先在一部分訓(xùn)練集上進(jìn)行預(yù)測(cè)與真實(shí)的情況進(jìn)行對(duì)比采用sklearn里的交叉預(yù)測(cè)模塊進(jìn)行分析
在這之后為了提高預(yù)測(cè)準(zhǔn)確率還需要進(jìn)行更進(jìn)一步的特征工程的工作并且采用多模型融合也可能可以提高預(yù)測(cè)的準(zhǔn)確率。本文在補(bǔ)全未知數(shù)據(jù)時(shí)采用了較為簡(jiǎn)單的方法尤其時(shí)對(duì)年齡的補(bǔ)全采用了所有數(shù)據(jù)的平均值作為缺失年齡的補(bǔ)全值這樣的做法可能并不科學(xué)另外對(duì)于PassengerId、Name和Ticket的信息沒(méi)有進(jìn)行有效的利用在這些方面進(jìn)一步深挖也許可以提高預(yù)測(cè)的準(zhǔn)確率。