saveしたpolicyをloadした時、同じactionが呼ばれてしまう

Question

saveしたpolicyをloadした時、同じactionが呼ばれてしまう

yuki-asano opened this issue 2 years ago · comments

saveして保存したpolicyをloadし直した時、一度呼ばれて評価値を登録したactionが再度呼ばれてしまうような気がするのですが、いかがでしょうか？
評価値が未登録のactionが優先的に呼ばれる仕様が望ましく感じるのですがいかがでしょうか？

以下、自作プログラムをprintした挙動になるのですが、

chosen_actions
 [12  6  7  9  8 10 18  1 19 13  4 15 14 11  2 16  3  5 17]

のpolicyをloadした場合において、random_searchを実行すると、
(この時は)[11]のchosen_actionに入っているactionが再度呼ばれる結果となっております。

Start the initial hyper parameter searching ...
Done

Start the hyper parameter learning ...
0 -th epoch marginal likelihood -34.930600301307116
50 -th epoch marginal likelihood -39.134970116321696
100 -th epoch marginal likelihood -41.25847547249403
150 -th epoch marginal likelihood -42.341124562570016
200 -th epoch marginal likelihood -42.93564581049239
250 -th epoch marginal likelihood -43.29619395568853
300 -th epoch marginal likelihood -43.541479385193696
350 -th epoch marginal likelihood -43.727110572165785
400 -th epoch marginal likelihood -43.878704166640375
450 -th epoch marginal likelihood -44.00773411736684
500 -th epoch marginal likelihood -44.11926492568572
Done

chosen_actions:
 [12  6  7  9  8 10 18  1 19 13  4 15 14 11  2 16  3  5 17]

Guess next param by RANDOM search
 Next index: [11]
 Next param: [10 10 5 200 20 20 3000 450 30 30]

Yuichi Motoyama · Answer 1 · Fri Nov 11 2022 10:53:39 GMT+0800 (China Standard Time)

@yuki-asano
ご指摘ありがとうございます。修正しました。 (#45)
さしあたり develop ブランチからソースインストールしてください。

Yuki Asano · Answer 2 · Sun Nov 13 2022 12:25:19 GMT+0800 (China Standard Time)

早期のご対応ありがとうございます．