マイロ将棋(32)戦局の確認

教師データを改善しているはずなのに、対マイロ将棋1.0の勝率が上がらない原因、50万局面より多くの学習データを学習させると勝率が下がってしまう原因を考えています。戦いの様子を確認すると、マイロ将棋1.0に対して無謀な王手を繰り返して駒を取られ、自滅するというパターンが多いように見えます。この傾向を何とかして数値に表すことを試みます。

改善前(40)と改善後(50)の教師データで学習したモデルでそれぞれマイロ将棋1.0と対局し、以下の指標値を測定してみました。

 

指標値

内容

勝率

マイロ将棋1.0に対してどれだけ勝てたか。これまで取得していた値と同じ。

平均持ち駒率

全40駒の内、自分が保持していた駒数の割合。全手番の平均。

回避率

相手から王手をされた次の手で負けなかった割合

王手勝利率

王手をした直後に勝てた割合

被王手率

相手の手番の時に相手が王手をした割合

王手率

自分の手番の時に王手をした割合

 



 

あまり見やすいグラフにできませんでした。今のところ、有力な手掛かりは見つかっていないですが、いくつか読み取れたこともあります。平均持ち駒率と勝率の関係ですが、平均持ち駒率は60万局面以降特に低下して行っています。対局中の自分の駒が少ないほど勝率が低いというのは納得のいく結果です。

王手率(グラフで緑色の線)も納得のいく結果です。無駄な王手を繰り返すような対局内容では王手率が高めになると考えました。教師データ改善により、王手すれば勝つという学習データが少なくなり、改善後の教師データで学習したモデルは改善前より王手率が低くなるはずです。わずかですが、改善前より改善後の方が王手率は低くなっていて、これは意図した通りの結果でした。その割には勝率が改善しないのですが。

回避率(グラフで灰色の線)は少し意外な結果でした。マイロ将棋1.0はほぼでたらめに打っているだけなので、王手されても、容易に対処可能なものがほとんどです。それに対処できずに負けてしまうというのは、ほぼ王手されたことに気づいていないということになります。王手に気づけるようにするというのは、自分にとって大きなテーマで結論が出ていないのですが、王手に気づける割合は学習とともに増えていくという認識でした。ところが、改善前データで学習した結果では80万局面以降、回避率が下がってしまっているように見えます。もう少し確認を続けます。