一直對於 Metacritic 開放user review頗有興趣, 到底是否有人上去洗分數亂版?
肉眼看實在看不出來, 索性寫程序上網爬他所有數據!
從上圖來看, 目前顯示12萬人評論, 正負極端M型化分布, 圖標共654頁(我當時在看的時候總評論頁數是651頁), 每一頁100比評論, 有幾個問題
- 當時全部651頁, 每一頁100筆, 總數應該是6萬多, 但是官方卻有12萬, 不顯示全部數據的原因無法得知, 不過統計的概念, 數量達一定程度應該就足夠反應出母體的分布了.
- 爬數據的時候發現沒有想像中順利, 數據常常重複, 而重複的數據常常像是這樣
欄位有user, review_dt(日期), review_grade(分數), review_body(本文), 上圖全都一樣, 原本以為抓到偷灌水, 但是發現許多都是差一頁而已, 而且一堆信息全都一樣, 應該是metacritic吐數據的時候分頁問題, 或是數據被洗到下一頁, 並不是人為灌水.
- 某幾頁是評論是空的, 都要Retry很多次才會有數據
光是抓數據就花不少工夫 (抱怨碎碎念一下)
後來我用 [user + 日期 + 分數] 去除重複, 結果剩下59328筆數據
直接來看分數的統計信息
平均是5.18分, 中位數落在5分, 看起來和原本的5.4分是差不多的, 這邊沒啥問題.
再來看每個評分的分布
依序是0 ~ 10分的數量, 確實是M型化分布, 高分的略贏一點, 但有一點比較特殊, 那就是給高分的似乎向大多數是集中10分, 照理說如果高分趨勢 > 低分趨勢, 給8分9分的數量應該也要相對高於的1分2分會比較make sense, 但是卻相反? 向心力有點過強了…
再來我以8分以上當作正評, 2分以下當作負評, 其他就是中間的, 分布是這樣
最上方有實際數字 (X軸的neg, mid, pos應該不難懂吧? => 負評, 中間, 正評)
後來我觀察metacritic其實在4分以下就是紅字, 5 ~ 7分是黃字, 8分以上是綠色的
所以用metacritic的邏輯下去調整, 分布是這樣
此時負向就略多了一點, 跟metacritic上不一樣, 也許拿到真正12萬筆數據之後才會一致吧?
然後依照日期去切割, 看看10分 vs 0分的每日變化
藍色是0分, 大便色是10分 (右上角有寫), 6/22之後10分就開始超過0分, 之後就再也沒被追回, 這裡可以看出沖首發的也許都賭爛負評比較多? 比較晚開始玩的大多給正向評價.
依照日期去切割, 看看pos vs neg的每日變化 (這裡是用metacritic的邏輯去切正負評)
6/24號之後開始被positive追回, 之後都是這樣
然後我特地去用regular expression去找出評論是中日韓的user
結果數量只有254筆Orz, 大多數是賭爛這遊戲的比較多
不過我也知道國內玩家應該滿多都用英文去評論, 這裡我就沒法判別了, 信息不足, 我相信亞洲評論的人數應該至少會破萬吧, 2百多真的太少.
再來我去統計每篇文章的單詞最大長度, 75百分點的值是13, 每篇文章的字數25百分點是22, 利用這些數據來找出看起來可能來亂的文章(這裡聽不懂沒差XD), 如下:
上面只是sample 15筆而已, 仔細看一下內文(review_body), 看起來是不是像來亂的?
其實高分或低分的都存在這樣的文章, 這裡我不太敢定義這樣的文章就是來亂的, 也許只是想給個分數懶得寫評論的人也是有可能, 所以我特地把這類文章的數量分布也列出來, 0分10分各8百多人, 如下
再來我利用文章分析常用的 TF-IDF 去找出每篇文章比較關鍵的文本, 每篇文章都取關鍵的前10個字, 然後這是高分群常出現的前100用字
best, masterpiece, amazing, perfect, haters 等等…
這是低分群常出現的前100用字
sjw, lgbt, political, awful, worst, poor 等等…
然後我肉眼稍微從這些字當中, 挑出幾個來比較一下這些字在高分群和低分群的頻率
*Y軸是關鍵字, 欄位pos, neg, total 都是字詞出現的數字 pos + neg = total
- 像是 SJW, political, lgbt 這些關鍵字數量在低分群大於高分群, 也許是針對這些點去說明這遊戲爛的原因.
- 像是masterpiece, best, gameplay, generations, haters 高分群的數量大於低分群, haters 這個字也許常常在高分群里會去批判賭爛這遊戲的人吧? 其他的關鍵字都是對於遊戲的讚賞.
簡單結論:
- 原本以為可以找到一些規則來判別哪些是灌水文章, 進而用Machine Learning來Train一個Model來預測之後的文章是否是灌水, 但是發現用肉眼看都不一定能確定答案, 只能退一步用敘述性統計的方式來做簡單分析, 而且分析的一些事情有在關心炎上事件的的各位早已知道, 所以還滿遺憾的.(玩Deep learning的話也玩不起來, Training成本太高 + 沒有label無法進行.)
- 此外, 要用AI去自動判斷文章的summary也是我研究不深的地方, 所以我只能用弱弱的關鍵字, 很粗糙的顯示出高低分群的玩家通常評論的重點是什麼
- metacritic沒有限制有玩過的玩家才能評分也是個問題, 要灌水也容易
- 高分的趨勢在後來才慢慢崛起是一件有點難解釋的事情, Why? 靈魂升華需要時間?
- 8分9分的數量少於1分2分的數量也很奇怪 (上面的敘述有提過了)
如果有同行的Data Scientist, 或是統計界大神也可給個建議, Thanks.