人工智能技术

Stability AI团队突破:让AI不仅会"看"还会"动"的神奇技术

阅读时长 64 min
作者:技术特派员


这项由Stability AI的研究团队与伊利诺伊大学香槟分校合作完成的研究发表于2025年9月,题为《Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation》。研究的主要作者包括Stability AI的张昊、姚春汉、Simon Donné和Varun Jampani,以及伊利诺伊大学的Narendra Ahuja教授。这篇论文目前正在接受同行评议,有兴趣深入了解的读者可以通过arXiv:2509.10687访问完整论文。

现代AI技术已经能够生成令人惊叹的图像和视频,但它们有一个致命的局限性:就像一个只会画画却不懂机械原理的艺术家,AI生成的内容虽然美观,却缺乏对物体内在结构和运动规律的理解。当我们看到一只鸟的视频时,我们知道翅膀是可以扇动的,腿是可以弯曲的,头部可以转动,但传统的AI只是在画表面,并不真正理解这些部位是如何协调运动的。

这就好比一个厨师只知道如何摆盘让菜品看起来漂亮,却不懂得食材的特性和烹饪原理。当需要制作一道新菜时,这样的厨师就会手足无措。同样,当我们需要AI生成的内容能够真正用于动画制作、游戏开发或者机器人控制时,仅仅能生成好看的表面是远远不够的。

Stability AI的研究团队意识到了这个根本性问题,并提出了一个革命性的解决方案:SP4D(Stable Part Diffusion 4D)。这个系统就像是给AI装上了一双能够透视物体内在结构的眼睛,不仅能看到表面,还能理解物体的"骨骼"和"关节"是如何连接和运动的。

一、从"表面文章"到"内在理解":AI如何学会物体的运动规律

传统的AI视频生成就像是一个非常擅长临摹的画家。它能够根据已有的图片或视频生成新的内容,画得栩栩如生,但实际上只是在复制表面的纹理和颜色变化,对物体的内在结构一无所知。这种方法就像是用照片拼贴制作动画片:虽然能产生运动的效果,但角色的动作往往显得生硬不自然,因为缺乏对真实物理运动的理解。

SP4D的创新之处在于引入了"运动学部件"的概念。运动学部件就像是物体的"功能性组件",它们不是简单地按照外观来划分(比如按颜色或纹理),而是按照运动特性来分组。以一只鸟为例,传统的分割方法可能会把黑色的羽毛归为一类,白色的羽毛归为另一类;而运动学分割则会把能够一起扇动的整个翅膀归为一个部件,把能够一起转动的头颈部归为另一个部件。

这种理解方式的转变就像是从"按材料分类整理工具箱"转向"按功能分类整理工具箱"。前者可能会把所有金属制品放在一起,后者则会把螺丝刀、扳手等有着相似功能的工具归类,即使它们材料不同。对于动画制作来说,功能性的分类显然更有实用价值。

为了实现这种功能性理解,研究团队开发了一种双分支的神经网络架构。这个架构就像是培养一个既会画画又懂机械的全才艺术家。一个分支专门负责生成美观的RGB图像,就像艺术家的审美眼光;另一个分支则专门分析物体的运动学结构,就像工程师的机械思维。两个分支通过一个叫做"双向扩散融合"的机制进行交流,确保生成的图像既美观又符合物理运动规律。

研究团队还创新性地解决了一个技术难题:如何让AI学会识别那些在运动中应该保持一致性的部件。他们设计了一种"对比式部件一致性损失"机制,这就像是给AI安装了一个"一致性检查器"。当AI在不同角度、不同时间点观察同一个物体时,这个检查器会确保相同的运动学部件始终被识别为同一个整体,避免出现"翅膀在这一帧是一个整体,下一帧却被拆分成几块"的情况。

二、颜色密码:用色彩编码运动信息的巧妙设计

在SP4D系统中,最巧妙的设计之一是如何用颜色来编码运动学信息。这就像是发明了一种特殊的"颜色语言",每种颜色都代表着特定的运动功能。

传统的部件分割方法面临一个根本性挑战:不同物体的部件数量是不固定的。一只鸟可能有翅膀、身体、头部等几个主要部件,而一个机器人可能有几十个独立的关节部件。这就像是要设计一个通用的储物系统,既要适应只需要几个抽屉的简单需求,也要适应需要几十个隔间的复杂情况。

研究团队的解决方案是将部件信息编码为连续的RGB图像,而不是使用传统的离散标签。具体来说,他们采用了一种"空间颜色编码"方案:首先将物体的3D坐标标准化到一个单位立方体中,然后计算每个部件在第一帧中的3D重心位置,将这个重心的(x, y, z)坐标直接作为该部件的RGB颜色代码。

这种编码方式就像是给每个部件分配了一个基于其位置的"身份证颜色"。比如,位于物体中央偏左偏上的部件可能被编码为淡蓝色,而位于右下角的部件可能被编码为橙红色。最重要的是,这种颜色分配是确定性的:同一个部件在所有帧和所有视角中都会被分配相同的颜色,确保了时空一致性。

这种设计的优雅之处在于,它允许AI系统使用相同的图像处理架构来处理RGB外观信息和运动学结构信息。就像是用同一套画笔和颜料既能画风景画又能画工程图纸,大大简化了系统的复杂度,同时保持了强大的表达能力。

为了从这些颜色编码的图像中恢复出清晰的部件分割,研究团队采用了一种智能的后处理策略。他们不是直接对生成的颜色进行聚类(这会受到噪声干扰),而是先使用SAM(Segment Anything Model)在自动生成模式下产生候选的分割掩码,然后计算每个掩码内像素值的众数,将这个众数颜色分配给整个掩码。这种方法就像是先用高质量的模板切割蛋糕,再根据每块蛋糕的主要成分来分类,能够有效消除像素级别的噪声,产生干净、离散的部件表示。

三、双向交流:让外观理解与结构分析互相促进

SP4D系统的核心创新之一是实现了外观生成和结构分析之间的双向交流。这就像是让一个美术家和一个工程师紧密合作:美术家负责让作品看起来美观,工程师负责确保结构合理,而且两人能够实时交流,互相指导对方的工作。

在传统的方法中,外观生成和结构分析通常是分离的过程,就像是两个独立工作的专家,各自完成自己的任务,最后再尝试将结果拼接起来。这种方法的问题在于,两个部分可能会产生不一致的结果:外观看起来很真实,但结构分析却认为物体应该以不同的方式运动。

研究团队设计的双向扩散融合(BiDiFuse)模块解决了这个问题。在网络的每一层,RGB分支和部件分支都会交换信息。具体来说,当RGB分支正在处理某个特征时,它会接收来自部件分支的结构信息作为指导;同样,部件分支在分析结构时,也会参考RGB分支提供的外观信息。

这种交流机制就像是在制作一部动画电影时,美术指导和动作指导密切合作。美术指导说:"这个角色的肌肉线条应该更突出一些,这样看起来更有力量感。"动作指导则回应:"好的,而且基于这种肌肉分布,角色的跳跃动作应该更有爆发力。"两人的专业意见相互影响,最终创造出既美观又符合物理规律的角色设计。

融合过程使用了一个轻量级的函数,由两个1×1卷积层和ReLU激活函数组成。给定RGB分支的中间特征h_RGB和部件分支的中间特征h_Part,融合后的特征计算为:

h_RGB_fused = h_RGB + F([h_RGB, h_Part])

h_Part_fused = h_Part + F([h_RGB, h_Part])

这个公式的美妙之处在于它的对称性:两个分支都能从对方那里获得信息,同时保持自己的特色。就像是两个舞者在双人舞中,既要保持自己的舞步特点,又要与搭档协调一致。

四、时空一致性:确保部件识别的稳定性

在视频生成中,最大的挑战之一是保持时空一致性,也就是确保同一个物体的同一个部件在不同时间、不同角度下都能被正确识别。这就像是要求一个人在各种光线条件下、从各个角度看都能认出同一个朋友,不能因为角度变化就认错人。

研究团队面临的具体挑战是:虽然他们使用了空间颜色编码来为部件分配一致的颜色,但扩散模型在生成过程中缺乏明确的监督信号来强制执行这种一致性。这就像是告诉一个画家"把天空画成蓝色",但没有给他标准的蓝色参考,结果他可能在不同的画作中使用了不同深浅的蓝色。

为了解决这个问题,研究团队设计了一种巧妙的"对比式部件一致性损失"机制。这个机制的工作原理类似于人类的记忆机制:当我们看到一个熟悉的物体时,我们会将当前看到的特征与记忆中的特征进行比较,确认这是同一个东西。

具体来说,系统会为每个预测的部件区域提取特征,并将这些特征投影到一个共享的嵌入空间中。在这个空间中,来自同一个部件但在不同时间或不同视角的特征应该彼此接近,而来自不同部件的特征应该相互远离。

损失函数采用了InfoNCE风格的对比学习方法:

L_contrast = -E_{i∈P, j∈P_i^+} [log(exp(sim(f_i, f_j)/τ) / Σ_{k∈P\{i}} exp(sim(f_i, f_k)/τ))]

这个公式看起来复杂,但原理很直观。想象你在一个聚会上试图找到你的朋友们。这个损失函数就像是在训练你的识别能力:当你看到一个人时,如果这个人确实是你的朋友,你应该能够很容易地认出来(高相似度);如果这个人不是你的朋友,你应该能够明确地区分出来(低相似度)。通过不断的练习,你的识别能力会越来越准确。

温度参数τ就像是调节"识别敏感度"的旋钮。当τ较小时,系统对细微差别更加敏感,要求相同部件的特征非常接近;当τ较大时,系统更加宽容,允许一定程度的变化。研究团队通过实验确定τ=0.07是最佳设置。

五、数据集构建:两万个"会动"的3D物体

为了训练SP4D系统,研究团队需要大量包含运动学信息的训练数据。这就像是要教一个学生理解物体的运动规律,你需要准备大量的"教材",每个教材都详细标注了物体的各个部件是如何运动的。

传统的3D物体数据集主要关注外观,就像是一个只有静态照片的图书馆。虽然这些照片很精美,但无法告诉你物体是如何运动的。研究团队需要的是一个"动态博物馆",其中每个展品都配有详细的运动说明。

他们从Objaverse XL数据集开始,这是一个包含超过1000万个3D物体的大型数据库。但其中只有很小一部分物体包含骨骼绑定(rigging)信息,也就是关于物体如何运动的数据。研究团队精心筛选出了约20000个包含高质量骨骼信息的物体,构建了KinematicParts20K数据集。

筛选过程就像是在海量的乐器中寻找那些既美观又能正常演奏的。许多3D模型虽然外观精美,但缺乏内在的运动结构;另一些模型虽然有运动结构,但过于复杂或者有缺陷。研究团队需要找到那些既美观又具备完整、合理运动结构的"完美乐器"。

对于那些骨骼过于复杂的物体,研究团队开发了一种智能的骨骼合并算法。这个算法就像是一个经验丰富的编辑,能够将冗长复杂的文章简化为要点清晰的摘要,同时保持原意不变。算法会计算连接骨骼之间的相对运动和外观相似性,如果两个骨骼的运动模式很相似且外观特征接近,就将它们合并为一个更大的运动单元。

为了保证数据质量,研究团队设定了一个上限:每个物体最多包含100个骨骼。这就像是为了保证课堂教学效果而限制班级规模,确保每个"学生"(骨骼)都能得到足够的"关注"(计算资源)。如果一个物体在骨骼合并后仍然超过这个限制,就会被排除在数据集之外。

最终的数据集为每个物体提供了24个视角的24帧视频序列,以及对应的部件分割标注。这就像是为每个物体制作了一部详细的"纪录片",从各个角度记录了它的运动过程,并配上了详细的"解说词"(部件标注)。

六、训练策略:从通用到专业的渐进学习

SP4D的训练过程采用了一种"渐进式学习"策略,这就像是培养一个全才专家的教育过程:先让学生接受通用教育,掌握基础技能,然后再进行专业化训练,发展特殊技能。

在第一阶段,研究团队只训练RGB分支,使用ObjaverseDy数据集。这个阶段就像是让一个艺术学生专注于基础绘画技能的训练:学习色彩搭配、构图技巧、光影处理等基本功。在这个阶段,BiDiFuse模块被暂时"关闭",让RGB分支能够专心学习如何生成高质量的多视角视频。

ObjaverseDy数据集包含了大量多样化的3D物体,虽然这些物体没有详细的运动学标注,但它们为AI系统提供了丰富的外观和几何知识。这就像是让学生先通过观察大量的艺术作品来培养审美能力和基础技能,即使这些作品没有详细的技法说明。

第一阶段的训练让RGB分支掌握了强大的多视角一致性生成能力。这意味着系统能够理解3D物体的几何结构,并且能够从不同角度生成视觉上一致的图像。这种能力就像是艺术家的"空间想象力",能够在脑海中构建物体的3D模型,并从任意角度"观察"它。

在第二阶段,研究团队引入了部件分支和BiDiFuse模块,开始在KinematicParts20K数据集上进行联合训练。这个阶段就像是让已经掌握基础绘画技能的学生开始学习解剖学和机械原理,理解物体的内在结构和运动规律。

第二阶段的训练使用了两种监督信号:RGB监督和部件监督。RGB监督确保生成的图像质量不会因为引入新任务而下降,就像是确保学生在学习新技能时不会忘记已掌握的基础技能。部件监督则教会系统如何识别和生成正确的运动学部件,就像是专门的解剖学课程。

这种两阶段训练策略的优势在于充分利用了不同数据集的特点。大规模的ObjaverseDy数据集提供了丰富的视觉先验知识,而精心标注的KinematicParts20K数据集则提供了专业的运动学知识。两者结合,就像是让学生既有广博的知识面,又有深入的专业技能。

七、实验验证:从多个角度证明系统的优越性

研究团队进行了全面的实验来验证SP4D系统的性能,这就像是对一个新发明进行多方面的测试,确保它在各种情况下都能正常工作并且优于现有方案。

在2D部件分割任务上,研究团队将SP4D与两个代表性的基线方法进行了比较。第一个是SAM2,这是一个基于追踪的方法,它在第一帧生成部件掩码,然后将这些掩码传播到其他帧。第二个是DeepViT,这是一个无监督分割方法,它利用自监督DINO-ViT模型的特征来进行聚类分割。

实验结果显示了SP4D的显著优势。在多视角设置下,SP4D在mIoU(平均交并比)指标上达到了0.68,而SAM2只有0.15,DeepViT为0.17。这种差距就像是专业厨师与业余爱好者之间的差距:专业厨师(SP4D)能够精确地识别和处理每种食材的特性,而业余爱好者(基线方法)往往只能根据表面特征进行粗略分类。

更重要的是,在多帧设置下,SP4D的优势更加明显。这是因为传统方法在处理时间一致性方面存在根本性缺陷:它们主要依赖外观和语义线索,这些线索在不同时间点可能会发生变化,导致同一个部件在不同帧中被错误地分类。

研究团队还进行了用户研究,邀请参与者从rigging(骨骼绑定)的角度评估不同方法的效果。用户需要根据三个标准进行评分:部件边界的清晰度、跨视角的一致性、以及对rigging/动画的适用性。每个标准使用1-5分的评分系统。

用户研究的结果进一步证实了SP4D的优越性。SP4D在所有三个标准上都获得了超过4分的高分,而SAM2和DeepViT的平均分都低于2分。这种差距反映了专业用户对于不同方法实用性的直观感受:SP4D生成的部件分割真正适用于实际的动画制作流程,而传统方法的结果往往需要大量手动修正才能使用。

八、从2D到3D:构建完整的动画管道

SP4D系统的一个重要特色是它不仅能生成2D的部件分割,还能够将这些结果提升到3D,构建完整的动画就绪资产。这个过程就像是从平面设计图制造出实际的机械产品,需要将2D的信息转换为可操作的3D结构。

首先,系统使用生成的多视角RGB图像来重建3D几何体。这就像是摄影师从多个角度拍摄一个雕塑,然后雕塑家根据这些照片重新制作出原始雕塑。研究团队使用了Hunyuan 3D 2.0这样的先进图像到3D框架来完成这个转换过程。

接下来,系统需要将2D的部件信息映射到3D网格上。这个过程就像是给一个3D模型"着色",但这里的"颜色"代表的是功能性分组而不是视觉外观。系统会分析每个顶点在不同视角下对应的部件标签,通过多视角一致性检查来确定每个3D顶点应该属于哪个部件。

为了处理可能出现的不一致情况,系统使用了HDBSCAN聚类算法。这个算法就像是一个经验丰富的仲裁员,当不同视角给出不同意见时,它能够综合各方信息做出最合理的判断。算法会根据空间邻近性和特征相似性来分组顶点,确保最终的3D分割既符合2D观察又在3D空间中具有合理性。

最后,系统会计算调和蒙皮权重(harmonic skinning weights)。这是动画制作中的关键步骤,它决定了当"骨骼"运动时,3D模型的表面应该如何变形。这就像是为一个机器人的外壳设计柔性连接,确保当内部关节运动时,外壳能够自然地跟随变形。

调和权重的计算基于拉普拉斯方程:对于部件p,权重函数w_p(x)满足 Δw_p(x) = 0(在内部顶点),并且在部件边界上 w_p(x) = b_p(x),其中b_p(x)是二值指示函数。这个数学表达式的直观含义是:权重在部件内部平滑变化,在边界处有明确的归属。

九、性能评估:全方位的质量检验

为了全面评估SP4D系统的性能,研究团队设计了多层次的评估体系,就像是对一个新产品进行全方位的质量检验,从不同角度验证其可靠性和实用性。

在定量评估方面,研究团队使用了四个标准指标。mIoU(平均交并比)衡量的是预测部件与真实部件的重叠程度,这就像是测量两个拼图片的吻合度。ARI(调整兰德指数)评估的是聚类质量,它能够处理部件数量不同的情况,就像是一个能够适应不同规模项目的评估标准。F1分数结合了精确率和召回率,提供了像素级别的准确性评估。mAcc(平均准确率)则关注每个真实部件的平均召回率,确保不会忽略小的但重要的部件。

实验结果显示,SP4D在所有指标上都大幅超越了基线方法。在多视角设置下,SP4D的mIoU达到0.68,ARI达到0.60,而最好的基线方法在这两个指标上分别只有0.22和0.08。这种差距就像是职业运动员与业余选手之间的差距,不仅仅是量的差别,更是质的飞跃。

为了验证系统在实际应用中的价值,研究团队还进行了rigging精度评估。他们将SP4D生成的蒙皮权重与真实标注进行比较,发现SP4D能够达到72.7%的精度,显著超过了现有的自动rigging方法Magic Articulate(63.7%)和UniRig(64.3%)。这个结果表明,SP4D不仅在学术指标上表现优异,在实际应用中也具有实用价值。

特别值得注意的是,SP4D在处理生成物体(如恐龙、机器人等非训练集物体)时表现出了强大的泛化能力。在用户研究中,参与者对SP4D处理这些新颖物体的动画合理性给出了4.1分的高分,而传统方法只获得了2.7分和2.3分。这种泛化能力就像是一个经验丰富的工程师,即使面对从未见过的机械结构,也能根据基本原理做出合理的分析和处理。

十、消融实验:验证每个组件的重要性

为了深入理解SP4D系统中各个组件的作用,研究团队进行了详细的消融实验。这就像是分析一个精密机械的工作原理,逐一移除不同的部件来观察对整体性能的影响。

首先,研究团队测试了移除对比式部件一致性损失的影响。结果显示,没有这个损失函数,系统的性能显著下降,特别是在ARI指标上。这证明了一致性约束对于维持部件识别稳定性的重要作用。就像是移除了指南针的导航系统,虽然仍然能够运行,但很容易迷失方向。

没有一致性损失的系统往往产生时间上不稳定的分割结果:同一个部件可能在相邻帧中被识别为不同的区域,或者同一个部件的不同部分在同一帧中被错误地分离。这种不稳定性使得生成的结果难以用于实际的动画制作,因为动画师需要的是稳定、可预测的部件行为。

接下来,研究团队测试了禁用BiDiFuse模块的影响。这个实验揭示了跨分支信息交换的重要性。没有BiDiFuse,RGB分支和部件分支变成了两个独立的系统,就像是两个不交流的工作团队,各自完成任务但缺乏协调。

实验结果显示,禁用BiDiFuse导致所有指标的大幅下降。这是因为部件分支失去了来自RGB分支的视觉指导,难以准确理解物体的外观特征;同时,RGB分支也无法利用结构信息来改善生成质量。这种相互依赖关系类似于人类的感知系统:视觉信息和空间理解需要紧密配合才能产生准确的认知。

最完整的SP4D系统(包含BiDiFuse和一致性损失)在多视角设置下达到了0.68的mIoU和0.60的ARI,在多帧设置下达到了0.70的mIoU和0.63的ARI。这些结果证明了系统设计的合理性:每个组件都对最终性能有重要贡献,它们之间的协同作用产生了超越各部分简单相加的效果。

这些消融实验不仅验证了设计选择的正确性,还为未来的改进提供了指导。它们表明,在运动学感知的视频生成中,外观理解与结构分析的融合,以及时空一致性的保持,都是不可或缺的关键要素。

说到底,SP4D代表了AI视频生成领域的一个重要突破。它不再满足于生成表面华丽但内在空洞的视频内容,而是真正理解了物体的运动本质。这种理解使得AI生成的内容第一次具备了直接用于专业动画制作的潜力,无需大量后期修正。

更重要的是,SP4D展示了如何巧妙地结合不同类型的监督信号:大规模的2D视觉数据提供广泛的外观知识,精心标注的3D运动学数据提供专业的结构理解。这种组合策略为未来的AI系统设计提供了有价值的启示。

当然,这项技术也有其局限性。目前的系统主要针对单个物体进行优化,在处理复杂场景或多个交互物体时可能面临挑战。此外,相机运动的建模还比较简单,无法处理复杂的拍摄轨迹。但这些挑战也为未来的研究指明了方向。

从更广阔的视角来看,SP4D不仅仅是一个技术创新,更是AI理解世界方式的一次重要进步。它展示了AI如何从单纯的模式匹配进化到真正的结构理解,这种进步对于构建更智能、更实用的AI系统具有深远的意义。随着这类技术的不断发展和完善,我们有理由期待一个AI能够真正理解和创造运动世界的未来。

Q&A

Q1:SP4D技术是什么?它和普通的AI视频生成有什么区别?

A:SP4D是Stability AI开发的新型AI视频生成技术,它的特别之处在于不仅能生成好看的视频,还能理解物体的运动结构。普通AI生成的视频就像画在纸上的动画,只有表面效果;而SP4D生成的视频像真实的可动人偶,每个部件都有明确的运动功能,可以直接用于专业动画制作。

Q2:SP4D生成的视频能直接用于动画制作吗?

A:是的,这正是SP4D的核心优势。传统AI生成的视频需要动画师花费大量时间重新绘制运动结构,而SP4D生成的视频已经包含了完整的运动学信息,包括哪些部分应该一起运动、如何变形等,可以显著减少后期制作的工作量。

Q3:普通用户能使用SP4D技术吗?有什么实际应用?

A:目前SP4D还是研究阶段的技术,主要面向专业的动画制作、游戏开发和影视行业。未来可能会集成到视频编辑软件中,让普通用户也能制作具有专业质量的动画内容。在教育、广告制作、社交媒体内容创作等领域都有很大的应用潜力。

🎮