Actor–Critic Framework

Dreamer 4 employs an imagination-based actor–critic:

Training Objective: [ L_{actor} = -E[\hat{R}_\tau / S] + \eta H(\pi(a|s)) ]

where (S) normalizes returns, and (H) is policy entropy (~3×10⁻⁴ scale).

Optimization:

Last updated 3 months ago

hashtagActor–Critic Framework