Clarify anticipative solver interface for dynamic benchmarks

BatyLeo · BatyLeo · commit cf031b316592 · 2026-03-27T12:03:35.000+01:00
diff --git a/docs/src/custom_benchmarks.md b/docs/src/custom_benchmarks.md
@@ -149,6 +149,15 @@ generate_baseline_policies(bench::MyDynamicBenchmark)
 # Each callable performs a full episode rollout and returns the trajectory.
 ```
 
+### Anticipative solver (optional)
+
+```julia
+generate_anticipative_solver(bench::MyDynamicBenchmark)
+# Returns a callable: (env; reset_env=true, kwargs...) -> Vector{DataSample}
+# reset_env=true  → reset environment before solving
+# reset_env=false → solve from current state
+```
+
 ### Optional visualization methods
 
 ```julia
diff --git a/src/Utils/interface/dynamic_benchmark.jl b/src/Utils/interface/dynamic_benchmark.jl
@@ -18,6 +18,9 @@ of decisions) as in [`AbstractStochasticBenchmark`](@ref).
   can be drawn independently.
 - [`generate_baseline_policies`](@ref)`(bench)`: returns named baseline callables of
   signature `(env) -> Vector{DataSample}` (full trajectory rollout).
+- [`generate_anticipative_solver`](@ref)`(bench)`: returns a callable
+  `(env; reset_env=true, kwargs...) -> Vector{DataSample}` that runs the anticipative solver over a full episode. `reset_env=true` resets the environment
+  before solving. `reset_env=false` starts from the current state.
 - [`generate_dataset`](@ref)`(bench, environments; target_policy, ...)`: generates
   training-ready [`DataSample`](@ref)s by calling `target_policy(env)` for each environment.
   Requires `target_policy` as a mandatory keyword argument.