主成分分析
主成分分析とは多くのまとまった変数データに対して、変数の間ごとの相関関係を少数の合成変数 でまとめて分析を行う手法である。これを用いると、多変数で説明されたデータを簡潔に意味のある 少数の変数のみで要約することができる。
今回、各種 M リーグの個人戦績データより主成分分析を行うことにより選手のタイプを分析する。
データ
今回用いるデータは 2018年11月26 日現在の M リーグにおける和了率、平均打点、放銃率、平均放銃点、 立直率、副露率、流局時聴牌率、テンパイ収支のデータである。(以下に示す。)
和了率 | 平均打点 | 放銃率 | 平均放銃点 | 立直率 | 副露率 | 流局時聴牌率 | テンパイ収支 | |
---|---|---|---|---|---|---|---|---|
園田賢 | 24.46 | 6203 | 10.79 | 5040 | 17.99 | 33.09 | 43.48 | 0 |
村上淳 | 18.98 | 6531 | 15.33 | 5919 | 22.63 | 13.87 | 34.62 | -1500 |
鈴木たろう | 19.14 | 8266 | 15.43 | 4950 | 26.54 | 29.01 | 51.85 | 10500 |
二階堂亜樹 | 18.99 | 7200 | 7.59 | 5375 | 18.35 | 16.46 | 31.43 | -12500 |
滝沢和典 | 16.78 | 6633 | 5.59 | 4900 | 16.78 | 16.08 | 32.14 | 7500 |
勝又健志 | 20.3 | 7789 | 10.53 | 6129 | 16.54 | 19.55 | 33.33 | 0 |
佐々木寿人 | 18.78 | 7668 | 15.74 | 4823 | 24.37 | 18.78 | 40 | 1500 |
高宮まり | 23.64 | 5385 | 17.27 | 5684 | 34.55 | 16.36 | 50 | 8000 |
前原雄大 | 21.21 | 7297 | 17.58 | 6641 | 26.67 | 22.42 | 53.85 | 13500 |
多井隆晴 | 23.7 | 5606 | 7.41 | 4920 | 16.3 | 24.44 | 20.69 | -18000 |
白鳥翔 | 20.62 | 5753 | 9.28 | 6028 | 15.46 | 25.26 | 22.5 | -22000 |
松本吉弘 | 22.83 | 5766 | 6.3 | 8763 | 25.2 | 21.26 | 42.86 | 9500 |
魚谷侑未 | 17.57 | 6296 | 12.16 | 3654 | 15.54 | 29.73 | 57.69 | 13500 |
近藤誠一 | 21.24 | 6950 | 14.16 | 4638 | 21.24 | 23.89 | 40 | -500 |
茅森早香 | 18.18 | 7704 | 13.64 | 4890 | 21.43 | 21.43 | 33.33 | -6500 |
萩原聖人 | 17.12 | 7084 | 8.9 | 6377 | 19.86 | 12.33 | 20 | -14000 |
瀬戸熊直樹 | 20 | 7606 | 9.38 | 5080 | 21.88 | 15 | 40.63 | 5500 |
黒沢咲 | 22.64 | 6450 | 15.09 | 5100 | 18.87 | 19.81 | 35 | -3000 |
小林剛 | 22.92 | 7059 | 10.42 | 7800 | 21.35 | 30.73 | 29.03 | -2000 |
朝倉康心 | 18.92 | 7439 | 10.14 | 6067 | 23.65 | 24.32 | 51.43 | 15500 |
石橋伸洋 | 21.17 | 4517 | 9.49 | 5854 | 23.36 | 33.58 | 50 | 10000 |
なお、データは sonopoteさんのツイート より戴いた。
結果
R を用いて主成分分析を行なった結果を示す。
表の見方としては、各変数PCxに対してそれぞれの要素(和了率、平均打点…)がどれくらい相関しているかを縦列を見れば分かるようになっている。なお、各要素の相関は-1〜1の値で表される。
PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | PC7 | PC8 | |
---|---|---|---|---|---|---|---|---|
和了率 | -0.096403792 | -0.60021281 | 0.1165864 | 0.3738716 | 0.21051955 | 0.65674269 | -0.03730651 | -0.007570802 |
平均打点 | -0.029103076 | 0.56248871 | 0.1127245 | -0.07077678 | 0.73197006 | 0.30493131 | 0.17975035 | -0.063006634 |
放銃率 | -0.3983035 | 0.20073802 | 0.119709 | 0.64193073 | 0.14008463 | -0.33257106 | -0.48064375 | 0.115791315 |
平均放銃点 | 0.001119751 | -0.35468969 | 0.5856447 | -0.45040655 | 0.33369116 | -0.29890626 | -0.33229646 | -0.131272638 |
立直率 | -0.462908823 | -0.03720306 | 0.4802744 | 0.09839408 | -0.1552558 | -0.15274764 | 0.69968392 | 0.083622035 |
副露率 | -0.168340204 | -0.38939098 | -0.564053 | -0.02683251 | 0.49479304 | -0.40719116 | 0.26210873 | 0.147765499 |
流局時聴牌率 | -0.563384891 | 0.02094698 | -0.237359 | -0.17544702 | -0.10053908 | 0.09659793 | -0.09528607 | -0.752674591 |
テンパイ収支 | -0.520756037 | 0.06166302 | -0.105982 | -0.44619112 | -0.09947478 | 0.2780105 | -0.23983469 | 0.608265062 |
考察
第一主成分 (PC1) はテンパイ率 (-0.56) や立直率 (-0.46)、放銃率 (-0.40) に大きく 相関しており、守備の堅さを表現するパラメータと見ることができる。(PC1 の値が大きいほど守備 は堅い。)
第二主成分 (PC2) は和了率 (-0.60) や平均打点 (0.56)、副露率 (-0.40) に大きく相関しており、スケールの大きさ(高打点狙いか)を表現するパラメータと見ることができる。(PC2 の値が大きいほ どスケールが大きい。)
この考察の下、PC1を守備の堅さ、PC2をスケールの大きさとして2 変数で選手をプロットしたものを図 1 に示す。
結論
上のグラフでは高打点面前タイプが上部に、鳴いて和了率を高める手数の多い打ち手が下部に集まり、先制リーチを打たれた際にも危険牌を押したり愚形待ちの際にも積極的にリーチをかけたりする打ち手が左側に集まっており、観戦している印象通りの結果が得られた。
数千試合の打荘数がなければ統計的には実力差が結果に現れないとよく言われる麻雀であるが、数十試合のデータを用いても各種パラメータに打ち方の傾向が現れる事が明らかとなった。
投稿したけど数学関係なくて草
qiitaに上げろ