欢迎！

刚刚重新开始

Reinforcement Learning

一文速通主流强化学习算法。问题定义 Problem Definition 强化学习（reinforcement learning）整体的目标是优化策略（policy），使得智能体（agent）能够在与环境（environment）的交互中获得最大回报（return）。为了方便讨论，我们只在最简化的情况下考虑问题。智能体-环境交互循环 from OpenAI 智能体和环境的整体描述称为一个状态（state）$s$。智能体可以通过感受器获得状态的部分观察（observation）$o$，为了简单我们认为智能体可以观察到全部信息 $s$。智能体的策略 $\pi$ 描述为一个神经网络，参数为 $\theta$，根据观测生成行动（action）$a$ 的分布： $$a \sim \pi_\theta(\cdot | s).$$ $\pi_\theta(a | s)$ 就是在策略 $\pi$ 下，根据观测 $s$ 生成行动 $a$ 的概率。智能体的行动会改变状态，对应状态转移也可以建模为一个概率过程： $$s_{t+1} = P(\cdot | s_t, a_t).$$ 这个状态转移是与策略无关的，并且一般假设与更早的状态无关，也就是对应马尔可夫过程（Markov process）。我们自然假定智能体和环境会一轮一轮地进行交互，形成一条轨迹（trajectory，或者 episode，rollout）： $$\tau = (s_0, a_0, s_1, a_1, \cdots).$$ 轨迹可能是无穷长的，或者到达终止状态后停止。智能体的每一步交互都会对应一个反馈（或者奖励，reward）$r$： $$r_t = R(s_t, a_t, s_{t+1}).$$ 这些反馈最终积累起来变成一条轨迹的回报（return）$G$： $$G(\tau)=\sum_{t=0}^T r_t.$$ 这种直接将反馈相加的方式需要设定一个最大窗口长度，或者最大回报阈值。想要考虑无穷长的轨迹的反馈，可以定义一个打折因子 $\gamma\in (0, 1)$，定义回报为： $$G(\tau)=\sum_{t=0}^\infty \gamma^t r_t.$$ 最终我们的目标，是要得到一个策略，可以在所有可能轨迹上得到最大平均回报： $$\max_\pi J(\pi) = \max_\pi \mathbb{E}_{\tau \sim P(\cdot | \pi)}G(\tau).$$ 其中 $P(\tau | \pi)$ 是在策略 $\pi$ 下生成轨迹 $\tau$ 的概率，根据之前的定义，可以写为： $$P(\tau | \pi)=p_0(s_0) \prod_{t=0}^{T} P(s_{t+1}|s_t, a_t)\pi(a_t|s_t).$$ ...

Physics for Large Video Model

尽管现在视频生成模型已经能产生相当不错的效果，但是我们还是能经常发现生成结果中的不自然现象，也就是违反了大家对于几何、物理的常识。近年来出现了很多尝试将物理规则与视频模型相结合的工作，本文大致总结了其中三个方向。物理对齐 Physics Alignment 在语言模型中，对齐（Alignment）指的是通过一系列算法和工程手段，修正模型的行为，使其输出符合预设的安全边界和人类意图。与之对应的，修正视频模型的输出使其满足物理规则的过程就是物理对齐。作为对齐领域的代表性工作，InstructGPT 提出了两种对齐方法：监督微调（Supervised Fine Tuning，SFT）人工标注高质量的提示（prompt）和回答（output）数据集，通过监督学习的方式微调模型。基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）对同一个提示，模型输出多个回答，人工对这些回答进行比较打分；使用打分的结果训练一个反馈模型（Reward Model），用于评价模型输出的好坏；使用反馈模型对模型进行强化学习，比如近端策略优化（Proximal Policy Gradient，PPO）。将这两种想法用于视频模型中是比较直观的。对于 SFT，我们就需要使用物理真实的视频作为输入。但是真实世界中的视频当然都是物理真实的，可能的问题是视频动态不够，导致模型没有接受到足够的动态信息。因此像 Cosmos 在预训练阶段就会保证数据能够反映真实物理规则。这主要是通过两点做到的：收集包含大量动态的视频：包括驾驶视频、手部动作、第一人称视角、模拟结果等等。对数据进行过滤：剔除质量低的、缺乏动态的、非物理等的视频，并提取一部分高质量视频作为后训练数据集。尽管 Cosmos 论文在 5.3.2 节专门讨论了物理对齐的问题，但是实际上并没有做更多的尝试，只是在几个场景中测试了 Cosmos 生成的结果是否吻合模拟/真实的物理。对于 RLHF 而言，首要问题是需要一个反馈模型来判别模型输出的结果是否满足物理规律。这方向一个代表工作是 VideoPhy。这篇工作的核心是对市面上十二个视频模型的生成结果进行人工打分，然后训练一个打分网络 VideoCon-Physics。打分分为两个维度，每个维度得分只有 0 或 1：一个是语义的符合程度（Semantic Adherence，SA），一个是是否符合物理常识（Physical Commonsense，PC），结果如下： Benchmark 结果可以发现成绩最好的是开源模型 CogVideoX-5B，但是也只是勉强及格的水平。这方向类似的工作还有 VideoScore，PhyGenBench。理论上有了打分模型之后我们就可以对视频模型进行强化学习对齐了，OnlineVPO 就使用了 VideoScore 作为反馈模型微调了 OpenSora 模型，使其在 VideoScore 得分上超越了其他模型。最近这个方向又有两篇新文章：Physics IQ Benchmark 和 WorldModelBench。Physics-IQ 根据几个生活中的物理场景：固体、流体、光学、热物理、磁现象，测试大模型预测物理过程的能力，最后得到一个 0-100 的 Physics-IQ。结论上来说，所有大模型得分都不高，最高是 VideoPoet （和 Physics-IQ 都是 Google 的）的 29.5 分。并且作者观察到生成真实的视频（更高的 MLLM 分数）和物理正确（更高的 Physics-IQ）并没有什么关系。相比之下 WorldModelBench 做了更多的工作。WorldModelBench 首先提了几个指标，包括是否遵从指令，是否符合物理等，然后众包人类标准了一个数据集，然后训练了一个判别器，然后用判别器微调了 OpenSora-v1.2 模型。从论文展示的结果来看，微调的提升效果有限。 ...

Transformer

Transformer 的重要性已经无需多言，简洁性和高效性让其成为现代大模型的基石。然而阅读 Transformer 原文并不是一件简单的事。原文受限于篇幅对很多重要的细节并未过多解释，并且行文顺序也不太适合缺乏背景知识的读者。本文是我学习 Transformer 论文的笔记，综合了多篇文章、教程对原文进行补充。注意力机制 Attention Transformer 论文标题 “Attention Is All You Need” 中的注意力机制（Attention）并不是 Transformer 首创的，d2l 对其中的来龙去脉有比较详细的解释。Transformer 的核心贡献是向大家展示了注意力机制本身的重要性：仅仅使用注意力模块本身就能构建强大的神经网络。从理解顺序上来看，我们可以先来总结一下 d2l 中的内容。注意力机制可以总结为下面的公式： $$ \text{Attention}(\mathbf{q}, \mathcal{D}) = \sum_{i=1}^{m} \underline{\frac{\alpha(\mathbf{q}, \mathbf{k}_i)}{\sum_j \alpha(\mathbf{q}, \mathbf{k}_j)}} \mathbf{v}_i $$ 其中 $\mathcal{D}$ 是数据集 $\{(\mathbf{k}_1, \mathbf{v}_1),\cdots, (\mathbf{k}_m, \mathbf{v}_m)\}$，对应键（Key，K）和值（Value，V），$\mathbf{q}$ 是问题（Query，Q）。每个 Q，K，V 都是一个向量。$\alpha(\mathbf{q}, \mathbf{k}_i)$ 是一个标量，表示 $\mathbf{q}$ 对 $\mathbf{k}_i$ 的注意（匹配）程度。公式中划线的部分是对 $\alpha(\mathbf{q}, \mathbf{k}_i)$ 进行归一化。这个公式描述的过程，就是我们使用问题 $\mathbf{q}$ 和数据集中的每个键 $\mathbf{k}_i$ 计算匹配度 $\alpha$，经过归一化得到权重之后对值 $\mathbf{v}_i$ 进行线性插值。d2l 中进一步给出了一个数据拟合的任务来帮助注意力机制的理解：我们希望拟合一堆散点 $(x_i, y_i)$ 得到一条曲线，对于任意一个 $x$，越近的 $x_i$ 对应的 $\alpha(x,x_i)$ 就越大，表示 $x$ 越“注意” $x_i$，归一化之后再对 $y_i$ 进行插值，就得到了曲线上对应的 $y$ 值。 ...