メモ:Stable Baseline3 PPO 出力内容

出力項目数値例内容
approxkl 0.00013371343新しい方策から古い方策へのKullback-Leibler divergence
clipfrac0.0クリップ範囲ハイパーパラメータが使用される回数の割合
explained_variance-0.0241誤差の分散
fps4051秒あたりのフレーム数
n_updates1更新回数
policy_entropy1.3861077方策のエントロピー
policy_loss-0.00052567874方策の損失
serial_timesteps128 1つの環境でのタイプステップ数
time_elapsed0経過時間
total_timesteps128全環境でのタイムステップ数
value_loss111.95057価値関数更新時の平均損失

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です