Demo 3：Baker 逆向规划 — 从轨迹推断目标

Chapter 2 · 贝叶斯图

核心公式：\( p(G | A_{1:T}) \propto p(A_{1:T} | G) \, p(G) \)，其中 \( p(A|G) \propto \exp[-\beta \, \text{cost}(A,G)] \)

Agent 目标 1 目标 2 目标 3

Grid World

点击空格放置/移除障碍。点击 Agent (蓝) 后可拖动。Agent 会沿最短路径行走。

蓝色=Agent | 红/绿/橙=目标 | 灰=障碍 | 浅蓝=Agent 路径

参数

理性参数 β 5.0

β→0: 随机行走；β→∞: 完美理性

后验 p(G | path)

路径代价

观察提示：默认 Agent 走向目标 1 方向。添加障碍使路径弯曲后，观察后验如何变化。调低 β（理性参数），Agent 被认为是"随机走路"，三个目标的后验趋于均匀。调高 β，后验会锐化到代价最低的目标。

文献与案例意图：本 demo 对应教材 §2 中贝叶斯图在心智推断中的应用。Baker, Saxe & Tenenbaum (2009, 2017) 提出 inverse planning 模型：观察者假设 agent 近似理性地最小化代价，从而通过轨迹反推目标。Jara-Ettinger et al. (2020) 进一步将该框架扩展到成本-奖励推断。教学点：贝叶斯图不仅建模物理因果，也能建模"从行动反推意图"的 intuitive psychology。