Demo 3:Baker 逆向规划 — 从轨迹推断目标

Chapter 2 · 贝叶斯图

核心公式:\( p(G | A_{1:T}) \propto p(A_{1:T} | G) \, p(G) \),其中 \( p(A|G) \propto \exp[-\beta \, \text{cost}(A,G)] \)

Agent 目标 1 目标 2 目标 3

Grid World

点击空格放置/移除障碍。点击 Agent (蓝) 后可拖动。Agent 会沿最短路径行走。

蓝色=Agent | 红/绿/橙=目标 | 灰=障碍 | 浅蓝=Agent 路径

参数

β→0: 随机行走;β→∞: 完美理性

后验 p(G | path)

路径代价

观察提示:默认 Agent 走向目标 1 方向。添加障碍使路径弯曲后,观察后验如何变化。调低 β(理性参数),Agent 被认为是"随机走路",三个目标的后验趋于均匀。调高 β,后验会锐化到代价最低的目标。
文献与案例意图:本 demo 对应教材 §2 中贝叶斯图在心智推断中的应用。Baker, Saxe & Tenenbaum (2009, 2017) 提出 inverse planning 模型:观察者假设 agent 近似理性地最小化代价,从而通过轨迹反推目标。Jara-Ettinger et al. (2020) 进一步将该框架扩展到成本-奖励推断。教学点:贝叶斯图不仅建模物理因果,也能建模"从行动反推意图"的 intuitive psychology。