マイロ将棋(40)教師データ 王手局面のみ更新 200万局面分

王手局面のみ更新したデータを200万局面分作成し、勝率を確認しました。前回50万局面分確認した結果を載せていたのですが、マイロ将棋1.0との対局条件が他と異なっていたので、今回新たに確認し直しています。結果は以下のようになりました。学習経過のほぼ全てで改善前の教師データを上回る結果になっています。王手局面を除外した教師データ(オレンジ)と王手局面のみ更新した教師データ(青)は似た勝率になりました。30万局面から150局面に掛けては、王手局面のみ更新した教師データの方が高い勝率になっています。これまで改善後の教師データでよい結果になったことがあまりなかったので嬉しい結果です。マイロ将棋1.0に勝ち越す結果が出たのも多分今回が初めてです。

 

 

マイロ将棋0.2との対局結果も確認しました。こちらは改善前データの勝率が一番高いです。対局相手によっても勝率の傾向は変わるようです。マイロ将棋0.2は改善前データを1500万局面分学習したものなので、改善前データでの勝率は1500万局面まで学習を続けていくと勝率5割に収束していくのかなと思います。もしデータの改善がうまくいっているのならば、王手局面のみ更新のデータで学習を続ければ、どこかで勝率5割を超えるのかなとも思います。引き続き教師データの更新を続け、300万局面まで進めるとどうなるかを見てみようと思います。

 

 

マイロ将棋(39)教師データ 王手局面のみ更新

教師データを更新してもなかなか勝率が上がらず、更新の効果を実感できない状態が続いています。もっと多くのデータを更新することで改善の効果が確認できるのかもしれないですが、データの更新には非常に時間が掛かり、確認できたとしても数か月とか数年先になりそうです。もっとよい方法はないかと考え、思いついたのが王手局面のみ更新です。

 

過去に自分が王手している局面のみ教師データから除外することで結果が改善されることを確認していました。初期の教師データはマイロ将棋0.1同士で対局したもので、王手をすればほぼ勝てるので、自分が王手をしている局面の勝率が高くなりがちです。その教師データを元に学習をするとかなりの割合で王手をするようになります。その結果、無駄な王手を繰り返し、自分の駒を減らして自滅してしまうのです。これを改善するために自分が王手している局面のみ教師データから除外するということをしていました。ですが問題点として自分が王手をしなくなってしまう傾向があり、従来のモデルを大幅に上回るものを作るのは難しそうでした。

 

現在はマイロ将棋0.2同士の対局もできるようになったので、王手局面を教師データから除外するのではなく、王手局面のみマイロ将棋0.2同士の対局結果で更新すれば、除外した時よりも良い結果が得られそうです。教師データの中で自分が王手をしている局面は、感覚的にですが5%以下くらいです。全データを更新するよりも早く更新データを作成できるのも良いところです。このやり方で従来のモデルを大幅に上回ることができれば、そのモデルでさらに教師データを更新し、より強いモデルに早く到達することもできそうです。

 

早速、王手局面のみ更新したデータを作成しているのですが、またもや期待は裏切られています。なぜか勝率が大幅に下がってしまいました。もう少しこのデータの更新を続けてみます。

 

 

マイロ将棋(38)教師データ 改善後(80)120万局面分

改善後(80)のデータを120万局面分作成し終えました。以下グラフのオレンジ色の棒が改善後(80)のデータで学習した結果とマイロ将棋1.0を対局させた結果の平均勝率です。

 

 

学習を進めるにつれて改善後データが多いものほど勝率が高くなっていくようには見えますが、このまま学習を進めて勝率5割を超えそうとまでは言えなさそうです。50万局面くらいまで学習したところで一番勝率が高くなっているのも解せないです。

50万局面のところで勝率が高いというのは、対局相手がマイロ将棋1.0だからこうなるのか、相手に関わらず棋力が高いのかを見極めるため、別の相手、マイロ将棋0.2とも対局してみました。

マイロ将棋0.2は確か改善前(40)のデータを1500万局面学習させたもので、改善後データを作成するのに使っているモデルです。現在のところマイロ将棋0.2に対しての勝率は以下のようになっています。

 

こちらは50万局面の時に勝率が高いということもなく、ほぼ学習量に応じて勝率が上がっています。

ただ、教師データ作成に用いたモデルとの対局結果では、教師データ改善前(40)より教師データ改善後(50)の方がよい結果だったのですが、今回は教師データ改善前(40)の勝率の方が高いです。ダーツ法に変えた影響でしょうか。現在のところあまり改善後データの効果を実感できていないです。

マイロ将棋(37)教師データ 改善後(80)

改善後(80)のデータを100万局面分作成し終えました。以下グラフのオレンジ色の棒が改善後(80)のデータで学習した結果とマイロ将棋1.0を対局させた結果の平均勝率です。

 

 

学習量が100万局面に近づくにつれて若干勝率が上向いていますが、勝率は改善後(70)よりも悪くなっています。勝率がよくないのは学習量が足りないからで、100万局面よりもさらにたくさん学習させれば、もっと勝率が上がるかもしれない、と思います。今後は100万局以降の学習データを作成して勝率が上がるかを確認してみます。

 

マイロ将棋(36)教師データ 改善後(70)

最近、マイロ将棋への取り組みが教師データ作成のみになりつつあります。毎日24時間ひたすら教師データを更新し、ある程度データが溜まったところで、勝率の確認をしています。改善後(70)のデータは100万局面分作成し終えました。

 

 

前回は40万局面分までの教師データで勝率を確認し、あまり芳しくない結果でした。100万局面分までの教師データを用いて学習したモデルで勝率を確認した結果は以下です。

 

 

30万局面以降は、勝率3割前後をキープし、ほぼ横ばいという結果になりました。突出して高い勝率を出すことはありませんでしたが、これまでの改善後(60)と比べると、60万局面以降で勝率が下がっていくという傾向は緩和されています。教師データの改善を進めることでこの傾向が上昇に転じるようになれば、対マイロ将棋1.0で高い勝率を出せるかもしれません。改善後(80)を作成して結果を確認していきます。

 

マイロ将棋(35)教師データ 改善後(70)

教師データ、改善後(70)の作成を進めています。データの内訳は以下図の通りで、改善後(60)にダーツ法での10局分の対局結果を追加したものです。

 

 

現在40万局分まで作成を終えたところで、この教師データを用いて学習した結果は以下グラフのようになっています。改善後(60)の傾向をそのまま踏襲したような結果で、40万局分までは、これまでのどの教師データのものよりも悪い結果です。

 

 

50万局面以降の教師データで巻き返せることを期待してデータ作成を続けます。

 

マイロ将棋(34)73法とダーツ法の比較

73法で作成した教師データとダーツ法で作成した教師データとで学習結果に差が生じるのかを確認しています。改善後(60)がこれまでの73法で作成したデータ、改善後(d60)は改善後(60)の内の10局分をダーツ法での結果に置き換えたデータです。

 

 

現在改善後(d60)の教師データが80万局面分できたのでそこまでの結果ですが、対マイロ将棋1.0の勝率は以下のようになっています。50万局面までの学習結果では改善後(60)と改善後(d60)とでほとんど違いがみられなかったのですが、60万局面以降の学習結果では、若干ですが改善後(d60)の方がよくなっています。特に60万局面と80万局面の結果では改善後(50)を上回っています。この傾向が続いてくれれば、これまでで最も良い結果、改善後(50)の50万局面の勝率を超えられそうです。