策略迭代法

cè lüè dié dài fǎ · ㄘㄜˋ ㄌㄩㄝˋ ㄉㄧㄝˊ ㄉㄞˋ ㄈㄚˇ

修撰于 2026-06-30 04:23:15

拼音cè lüè dié dài fǎ
字母ce lve die dai fa
首字母clddf
注音ㄘㄜˋ ㄌㄩㄝˋ ㄉㄧㄝˊ ㄉㄞˋ ㄈㄚˇ
注音符号ㄘㄜ ㄌㄩㄝ ㄉㄧㄝ ㄉㄞ ㄈㄚ

广

策略迭代法(policy iteration method)是动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。