マイロ将棋(38)教師データ 改善後(80)120万局面分

改善後(80)のデータを120万局面分作成し終えました。以下グラフのオレンジ色の棒が改善後(80)のデータで学習した結果とマイロ将棋1.0を対局させた結果の平均勝率です。

 

 

学習を進めるにつれて改善後データが多いものほど勝率が高くなっていくようには見えますが、このまま学習を進めて勝率5割を超えそうとまでは言えなさそうです。50万局面くらいまで学習したところで一番勝率が高くなっているのも解せないです。

50万局面のところで勝率が高いというのは、対局相手がマイロ将棋1.0だからこうなるのか、相手に関わらず棋力が高いのかを見極めるため、別の相手、マイロ将棋0.2とも対局してみました。

マイロ将棋0.2は確か改善前(40)のデータを1500万局面学習させたもので、改善後データを作成するのに使っているモデルです。現在のところマイロ将棋0.2に対しての勝率は以下のようになっています。

 

こちらは50万局面の時に勝率が高いということもなく、ほぼ学習量に応じて勝率が上がっています。

ただ、教師データ作成に用いたモデルとの対局結果では、教師データ改善前(40)より教師データ改善後(50)の方がよい結果だったのですが、今回は教師データ改善前(40)の勝率の方が高いです。ダーツ法に変えた影響でしょうか。現在のところあまり改善後データの効果を実感できていないです。