出力項目 | 数値例 | 内容 |
approxkl | 0.00013371343 | 新しい方策から古い方策へのKullback-Leibler divergence |
clipfrac | 0.0 | クリップ範囲ハイパーパラメータが使用される回数の割合 |
explained_variance | -0.0241 | 誤差の分散 |
fps | 405 | 1秒あたりのフレーム数 |
n_updates | 1 | 更新回数 |
policy_entropy | 1.3861077 | 方策のエントロピー |
policy_loss | -0.00052567874 | 方策の損失 |
serial_timesteps | 128 | 1つの環境でのタイプステップ数 |
time_elapsed | 0 | 経過時間 |
total_timesteps | 128 | 全環境でのタイムステップ数 |
value_loss | 111.95057 | 価値関数更新時の平均損失 |