マイロ将棋(27)教師データの改善結果を確認中

苦戦しています。現在も改善後の教師データを作成し続けていて、50万局面分の改善後教師データが溜まりました。これを使って学習をして、強くなったかの確認をしているのですが、結果が芳しくないです。これまで教師データの作成に使っていたマイロ将棋0.1と比べると大分ましな手を打つはずのモデルを使っているので、それによって作った教師データで学習をすれば当然これまでよりも強くなると思っていました。

ところが、改善後の教師データで学習したモデルでマイロ将棋1.0と対局させると、勝率が改善前より低くなってしまうのです。一体どういうことなのか、データ量が少なくてまだ結論は出せませんが、二つのパターンがあると思っています。一つは、このまま教師データ作成を続けても、改善前データで学習したモデルより良くならないというパターン。もしそうだとすると、データの作成方法の問題とか、そもそも作成の仕方が間違っているとかの可能性を考えることになりそうです。もう一つは、このまま教師データ作成を続けることで、徐々に改善前よりも強くなっていくというパターン。今の結果を見る限りではあまりその兆候は感じられませんが、もしかしたら、改善後のデータは学習するのにこれまでよりも時間が掛かるのかもしれません。そうだとすると始めの内は改善前より弱いですが、学習を進めるにつれて少しずつ強くなり、いずれは改善前を追い越すでしょう。こっちのパターンだといいなと思いながら教師データ作成を続けています。

対マイロ将棋1.0勝率