目前國內電影票房的日趨火熱,2010年到現在電影票房近乎呈指數增長,理念觀影人數以及電影銀幕數數量同樣呈近乎指數的增長趨勢,而由于中國人口基數大,每10萬人擁有的屏幕數(2塊左右)仍遠低于美國的14.9塊。在這樣的大趨勢下,電影票房預測分析順應而生。電影票房預測分析有助于考察電影本身特質對票房的主要影響因素,在一定程度上預測電影票房,為投資方在初期提供決策,為拍攝方在電影相關細節方面給出合理化建議。做電影票房預測分析回答的核心問題只有一個:如何拍出票房可能更高的電影。
數據文件說明:數據文件名為:film.csv。該數據記錄了2011年到2013年票房1千萬以上的所有電影的相關數據,每個觀測為一部電影,共273部電影。因變量就是電影票房,自變量包含兩大部分:影片自身屬性和導演演員相關屬性,其中影片自身屬性包括影片類型、影片IP屬性、上映時間以及宣傳方,導演演員屬性包括導演名字、年代、第幾部作品、獲獎情況、導演是否轉型、兩個主演名字及對應的主演百度指數。
本案例共包含四個知識點。1.數據讀入,讀入常見的csv格式數據2.數據清洗,主要處理缺失值,使分類變量更具直觀的描述性3.對數據進行基本的描述性和探索性分析,主要用到箱線圖,觀察電影票房在各分類變量條件下的關系,得到初步的關聯概念,初步確定未來的研究方向4.使用多元線性回歸進行推斷和預測分析,得到系數并且進行初步的觀察和解釋,并且運用模型對新變量進行預測
1.啟動Rstudio2.使用setwd()函數設置工作目錄,將數據文件拷貝至工作目錄下3.清空當前全局環境中存儲的所有變量,釋放內存空間4.使用read.csv讀取數據,設置相應的參數,這里我們設置表頭為真,不將字符串自動轉化為因子向量,并且將5.讀取的數據賦值給自定義的對象a。6.查看讀入的數據對象a。
知識點小結:描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關系,本知識點大多數圖形用箱線圖表現出各影響因素對電影票房的影響,箱線圖的寬度是此分類下的電影數量,所以這里用一維箱線圖表現出了三維的數據,更加的直觀簡便。
從模型中得到的部分啟示:影響票房的主要因素有:影片類型、宣發團隊、IP因素、檔期、導演投資選材建議:選擇魔幻、懸疑類題材,故事盡量原創,有一定的群眾基礎(最好是翻拍片),搶占賀歲檔,宣發團隊要豪華(聯合企業),找一個從演員轉行的得過獎的導演
CDA(數據分析師認證),與CFA相似,由國際范圍內數據科學領域行業專家、學者及知名企業共同制定并修訂更新,迅速發展成行業內長期而穩定的全球大數據及數據分析人才標準,具有專業化、科學化、國際化、系統化等特性。
Level Ⅱ+Ⅲ:中國區30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州看看我所在的地哪里報名