Off-Policy - louis030195

#ai #computing #reinforcement-learning - Re-use old data, using [[Bellman Equation]] - Though, solving [[Bellman Equation]] do not cause optimal policy