欢迎!

刚刚重新开始

Physics for Large Video Model

尽管现在视频生成模型已经能产生相当不错的效果,但是我们还是能经常发现生成结果中的不自然现象,也就是违反了大家对于几何、物理的常识。近年来出现了很多尝试将物理规则与视频模型相结合的工作,本文大致总结了其中三个方向。 物理对齐 Physics Alignment 在语言模型中,对齐(Alignment)指的是通过一系列算法和工程手段,修正模型的行为,使其输出符合预设的安全边界和人类意图。与之对应的,修正视频模型的输出使其满足物理规则的过程就是物理对齐。作为对齐领域的代表性工作,InstructGPT 提出了两种对齐方法: 监督微调(Supervised Fine Tuning,SFT)人工标注高质量的提示(prompt)和回答(output)数据集,通过监督学习的方式微调模型。 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)对同一个提示,模型输出多个回答,人工对这些回答进行比较打分;使用打分的结果训练一个反馈模型(Reward Model),用于评价模型输出的好坏;使用反馈模型对模型进行强化学习,比如近端策略优化(Proximal Policy Gradient,PPO)。 将这两种想法用于视频模型中是比较直观的。对于 SFT,我们就需要使用物理真实的视频作为输入。但是真实世界中的视频当然都是物理真实的,可能的问题是视频动态不够,导致模型没有接受到足够的动态信息。因此像 Cosmos 在预训练阶段就会保证数据能够反映真实物理规则。这主要是通过两点做到的: 收集包含大量动态的视频:包括驾驶视频、手部动作、第一人称视角、模拟结果等等。 对数据进行过滤:剔除质量低的、缺乏动态的、非物理等的视频,并提取一部分高质量视频作为后训练数据集。 尽管 Cosmos 论文在 5.3.2 节专门讨论了物理对齐的问题,但是实际上并没有做更多的尝试,只是在几个场景中测试了 Cosmos 生成的结果是否吻合模拟/真实的物理。 对于 RLHF 而言,首要问题是需要一个反馈模型来判别模型输出的结果是否满足物理规律。这方向一个代表工作是 VideoPhy。这篇工作的核心是对市面上十二个视频模型的生成结果进行人工打分,然后训练一个打分网络 VideoCon-Physics。打分分为两个维度,每个维度得分只有 0 或 1:一个是语义的符合程度(Semantic Adherence,SA),一个是是否符合物理常识(Physical Commonsense,PC),结果如下: Benchmark 结果 可以发现成绩最好的是开源模型 CogVideoX-5B,但是也只是勉强及格的水平。这方向类似的工作还有 VideoScore,PhyGenBench。理论上有了打分模型之后我们就可以对视频模型进行强化学习对齐了,OnlineVPO 就使用了 VideoScore 作为反馈模型微调了 OpenSora 模型,使其在 VideoScore 得分上超越了其他模型。 整体上来说,物理对齐比较依赖预训练大模型的能力。对于语言模型来说,对齐往往会降低模型在基准测试上的分数,称为支付对齐税(Alignment Tax)。对于视频模型情况应该是类似的,增强其在物理动态方面的能力可能导致其他能力的削弱。因此,一个更本质的问题是,通过预训练的方式大模型是否能够足够泛化地学到物理规律?字节的工作 How Far is Video Generation from World Model? A Physical Law Perspective 是这个方向的一个初步探索。 屏幕空间物理 Screen-space Physics Ok,如果视频模型短期内无法达到我们对于物理规律的需求,那我们是否可以通过显式加入物理模拟的方式增强这方面的能力呢?由于视频模型都是 2D 的,我们可以先从屏幕空间(Screen-space)的模拟开始。 屏幕空间模拟(Screen-space Simulation)指的是绕过 3D 模型,直接在屏幕空间中模拟物体的动态。这方面的一个代表性工作是 PhysGen。 ...

二月 17, 2025 · 阮良旺

Transformer

Transformer 的重要性已经无需多言,简洁性和高效性让其成为现代大模型的基石。然而阅读 Transformer 原文并不是一件简单的事。原文受限于篇幅对很多重要的细节并未过多解释,并且行文顺序也不太适合缺乏背景知识的读者。本文是我学习 Transformer 论文的笔记,综合了多篇文章、教程对原文进行补充。 注意力机制 Attention Transformer 论文标题 “Attention Is All You Need” 中的注意力机制(Attention)并不是 Transformer 首创的,d2l 对其中的来龙去脉有比较详细的解释。Transformer 的核心贡献是向大家展示了注意力机制本身的重要性:仅仅使用注意力模块本身就能构建强大的神经网络。从理解顺序上来看,我们可以先来总结一下 d2l 中的内容。 注意力机制可以总结为下面的公式: $$ \text{Attention}(\mathbf{q}, \mathcal{D}) = \sum_{i=1}^{m} \underline{\frac{\alpha(\mathbf{q}, \mathbf{k}_i)}{\sum_j \alpha(\mathbf{q}, \mathbf{k}_j)}} \mathbf{v}_i $$ 其中 $\mathcal{D}$ 是数据集 $\{(\mathbf{k}_1, \mathbf{v}_1),\cdots, (\mathbf{k}_m, \mathbf{v}_m)\}$,对应键(Key,K)和值(Value,V),$\mathbf{q}$ 是问题(Query,Q)。每个 Q,K,V 都是一个向量。$\alpha(\mathbf{q}, \mathbf{k}_i)$ 是一个标量,表示 $\mathbf{q}$ 对 $\mathbf{k}_i$ 的注意(匹配)程度。公式中划线的部分是对 $\alpha(\mathbf{q}, \mathbf{k}_i)$ 进行归一化。这个公式描述的过程,就是我们使用问题 $\mathbf{q}$ 和数据集中的每个键 $\mathbf{k}_i$ 计算匹配度 $\alpha$,经过归一化得到权重之后对值 $\mathbf{v}_i$ 进行线性插值。d2l 中进一步给出了一个数据拟合的任务来帮助注意力机制的理解:我们希望拟合一堆散点 $(x_i, y_i)$ 得到一条曲线,对于任意一个 $x$,越近的 $x_i$ 对应的 $\alpha(x,x_i)$ 就越大,表示 $x$ 越“注意” $x_i$,归一化之后再对 $y_i$ 进行插值,就得到了曲线上对应的 $y$ 值。 ...

二月 4, 2025 · 阮良旺