动作值是指在特定环境中,一个行为的价值或优劣程度的度量。
保护机制可以根据动作值对不同的选择进行评估和决策,从而实现选择性保护。
这种保护方法基于对不同动作值的比较,选择具有较高动作值的行为,而忽略那些动作值较低的行为。