Sora 2 震撼发布！独立 App 上线，颠覆性「客串」功能打造首个 AI 社交宇宙

国庆节不过了，连夜干！！！

刚刚，就像爆料的一样OpenAI正式发布Sora 2

相比初代Sora模型，Sora 2在物理世界的准确性、真实感和可控性方面都实现了巨大飞跃，并首次加入了同步对话和音效生成功能

OpenAI表示，初代Sora是视频生成的“GPT-1时刻”，而Sora 2则直接跃升至视频领域的“GPT-3.5时刻”

最重磅的是Sora独立为APP，界面非常像抖音，主打创作、分享，以及一项颠覆性的社交玩法-“Cameo（客串）”的真人穿越功能，用户可以将自己一键置入AI生成的视频场景中

关于 Sora App 的推广计划，OpenAI 采取了分阶段的策略：

邀请制推出：为了营造一个以熟人社交为基础的社区氛围，应用将采用邀请制进行推广。成功注册的用户将获得四个邀请码，可以分享给自己的朋友

目前sora app，只在IOS系统提供，现在就可以下载（首批上线地区为美国和加拿大，计划将迅速扩展到更多国家），收到邀请后，用户也可通过sora.com访问Sora 2，Sora 2初期将免费提供，并设有慷慨的使用限制，Sora 2未来也计划发布API，安卓版本还在开发当中

Sam Altman把 sora 2称作创造力的ChatGPT时刻

以下是sora 2 发布会现场详细信息：

Sora 2 本体表现

Sora 2 在物理世界的模拟上达到了前所未有的高度。团队在发布中强调，新模型在运动（motion）、物理（physics）、智商（IQ）和对真实身体运动规律的精准模拟（body mechanics）方面都达到了业界顶尖水平。这意味着 Sora 2 能够更准确地理解和模拟复杂的物理交互。过去，像奥运会体操运动员的整套动作，或是在尾波滑水板上完成后空翻这类包含复杂动态和碰撞的场景，对于视频生成模型来说是极大的挑战。Sora 2 在处理这类复杂碰撞和动态建模方面表现得更为稳健，生成的画面感觉极其自然。例如，视频中展示的滑板爱好者完成踢翻的动作，其物理表现的精准度是以往模型难以企及的。这种对物理世界的深刻理解，是实现更高层次真实感的关键

其次，Sora 2 显著增强了模型的可控性。以往的视频生成系统通常需要用户以“逐个镜头”（shot-by-shot）的方式进行创作，很难在一次生成中构建一个包含多个镜头、叙事连贯的长故事。Sora 2 在这方面取得了突破，它能更好地理解和执行复杂的指令，在一次生成任务中讲述更长、更连贯的故事。这使得创作者能够摆脱碎片化镜头的束缚，更自由地构建完整的叙事，为短片、故事创作等应用场景提供了极大的便利

最后Sora 2 首次实现了视频与音频的同步生成。这是第一个能够同时生成视频和配套音频的 Sora 模型，并且它是一个非常通用的系统。这意味着用户生成的每一段视频都将自带声音，不再是无声的画面。这个音频生成系统能力非常全面，具体体现在：

多语言对话：能够生成涵盖多位说话者的多种语言的对话，并且口型同步非常自然，能够准确捕捉对话内容

环境音效：可以生成各种逼真的音效，例如环境中的风声、水声等

完整音景：能够创造出完整的音景（soundscapes），为视频增添沉浸感

此外，Sora 2 在风格多样性上也表现出色。许多早期的生成模型往往会陷入一种单一的美学风格，而 Sora 2 拥有极其广泛和多样的动态范围。无论是追求极致的现实主义风格，还是充满想象力的动漫风格，Sora 2 都能驾驭自如，并能覆盖两者之间的所有风格。这为全球创作者提供了无尽的创意空间，让人们能够以前所未有的方式将想象力变为现实

客串(Cameo)功能：化身万千，步入想象中的任何世界

在 Sora 2 带来的众多新功能中，最具颠覆性的无疑是客串玩法。这项功能是 Sora 2 独有的，它赋予了用户一种前所未有的能力：将真实世界的人物、宠物甚至物体，无缝地植入到任何由 AI 生成的虚拟世界或场景中。这不仅仅是简单的“换脸”，而是一种深度的人物和场景融合，让用户能够真正步入”自己的想象

Cameo 的核心工作原理源于 OpenAI 正在构建的世界模拟模型（world simulation models）。该功能通过观察一段关于某个主体（例如一个人、一只宠物）的简短视频片段，模型就能深度理解这个主体的外观、动态和特征。一旦理解完成，这个主体就可以像一个文本token一样，被注入到任何提示词中。这意味着，用户只需提供一个简单的视频素材，就能将自己或朋友“传送”到古罗马斗兽场、未来赛博朋克都市，或是任何能够想象到的场景中，并让他们在其中自然地活动和交互

为了确保这项强大功能的安全和用户自主性，OpenAI 设计了一套严谨的设置和权限流程：

创建与验证流程：用户若想创建自己的 Cameo，必须经过一个专门的流程。系统会要求用户录制一个动态的音频提示，并进行一次“活性检查”，例如根据指示移动头部。这个过程旨在通过多重验证，确保创建 Cameo 的是用户本人，从而有效防止身份冒用

精细化的权限控制：用户对自己 Cameos 的使用权拥有完全的控制。在设置中，用户可以决定谁有权使用自己的形象进行创作，选项包括“仅限我本人”（Only I）、“我批准的人”（People I approve）、“互相关注的好友”（Mutuals）或“所有人”（Everyone）。这一原则确保了任何人都无法在未经用户明确授权的情况下，使用其形象生成内容。用户的数字肖像权得到了充分的尊重和保护

个性化偏好设置：模型虽然强大，但并非完美，有时可能会“幻觉出”一些不符合用户特征的细节，比如给用户穿上紧身牛仔裤或赋予奇怪的口音。为了解决这个问题，用户可以在 Cameo 偏好设置（Cameo preferences）中进行调整，引导模型更准确地描绘自己。这种设置也可以用于娱乐目的，比如用户可以主动为自己的 Cameo 形象添加一个标志性的金项链或一顶有趣的帽子，为创作增添趣味

内容所有权与删除权：用户对自己授权创建的所有 Cameo 内容拥有完全的权利。这意味着，即使用户的朋友使用了其 Cameo 创作了一段视频，该用户也被视为该视频的所有者之一，并拥有随时将其删除的权力。这进一步强化了用户对自己数字身份的掌控

Cameo 功能的推出，被 OpenAI 团队视为一种全新的沟通方式。它超越了传统的文本、表情符号（emojis）或语音笔记，演变成一种基于视频的全新媒介。朋友之间可以通过 Cameo 共同出演一部微型电影，或是在一个奇幻世界里互动，这种充满乐趣和创意的交流方式，为社交带来了前所未有的可能性

Sora App：一个专为 AI 创意而生的社交新大陆

为了将 Sora 2 模型的魔力传递给最广泛的用户，并充分发挥 Cameo 功能的社交潜力，OpenAI 专门开发了一款全新的移动应用——Sora App。团队认为，Sora 2 所带来的体验已经超越了传统工具的范畴，它更像是一种全新的沟通媒介，因此需要一个全新的产品形态来承载。Sora App 的定位是一个以 AI 生成内容为核心的社交平台，旨在激发用户的创造力，并加深人与人之间的连接

Sora App 的界面设计看起来非常像抖音。有一个内容流、个人主页（p以及关注系统。但其核心区别在于，这个平台上的所有内容都是由人类用户通过 AI 生成的，而非机器人发布的垃圾信息。这创造了一种非常独特且新奇的体验，用户看到的不再是现实世界的快照，而是朋友们想象力

应用内的核心体验围绕着创造与互动展开：

动态流：用户打开应用后，会看到一个由其关注的人所创作的 AI 视频流

Remix 功能：这是 Sora App 的一个核心互动机制。当用户看到一个喜欢的视频时，可以点击 Remix 按钮，在其基础上进行二次创作。例如，看到一个香水广告，用户可以输入新的提示词，如“把它变成一个带有巨大羽毛的礼帽广告”，Sora 就会生成一个全新的、与原作相关联的视频。这个功能极大地降低了参与热门趋势和故事线的门槛，让每个人都能轻松地为社区的集体创作贡献一份力量

社交哲学：OpenAI 团队坦言，他们最初对一个完全由 AI 生成内容的平台持怀疑态度，担心它会削弱真实的人际关系。然而，内部测试表明，Cameo 功能反而以一种意想不到的方式拉近了人们的距离。因此，Sora App 的设计理念将重点放在加强朋友和家人之间的联系上。平台会优先推荐来自用户社交圈的内容，并提供一个专门的“关注”流，只显示用户已关注的人发布的内容

推荐：为了提升用户体验并给予用户更多主导权，Sora App 正在测试一项新功能，允许用户根据自己的心情来引导内容推荐。例如，用户可以选择“放松”或“动物”等模式，应用就会相应地展示更符合其当下心境的内容。

OpenAI的说法是Sora App 的目标不仅仅是成为一个内容消费平台，更是要成为一个激发每个人创造潜能的社区。它鼓励用户从被动的刷视频转变为主动的创造者，通过简单有趣的工具，将脑海中的奇思妙想变为现实，并与朋友们分享这份快乐

当然你可以完全把以上内容看做是OpenAI的宣传，说的很好听，到时候只怕玩的停不下来

防沉迷

针对社交媒体普遍存在的沉迷、孤立和算法投喂等问题，OpenAI提出了一系列应对措施：

用户控制信息流：用户可通过自然语言指示推荐算法，调整信息流内容。App会定期询问用户的使用感受，并主动提供调整选项

优先创作而非消费：App默认优先展示用户关注的人或能激发创作灵感的内容，不以“使用时长”为优化目标

强化社区联系：App采用邀请制，旨在鼓励朋友间共同使用，通过Cameos功能加强社区联系

青少年保护：为青少年设置了每日观看视频数量的默认限制，并对Cameos功能采用更严格的权限设置。家长可通过ChatGPT使用家长控制工具，管理滚动限制、算法个性化和私信设置

肖像权控制：用户对自己的Cameo拥有端到端的控制权，可以决定谁能使用，并随时撤销访问权限或删除包含其Cameo的任何视频

商业模式：目前唯一的商业化计划是，当计算资源紧张时，可能允许用户付费生成额外视频

Sam Altman的思考：创造力的“寒武纪大爆发”**

Sam Altman也发文表示，这感觉像是“创造力的ChatGPT时刻”，从想法到结果变得简单快速，带来了新的社交动态

他认为，创造力可能即将经历一场“寒武纪大爆发”，艺术和娱乐的质量将大幅提升。

同时，他也表达了忧虑，承认社交媒体的负面影响，如成瘾和霸凌。他强调，团队已深入思考如何避免Sora App落入由强化学习（RL）优化的垃圾信息流的陷阱。

为此，Sam Altman提出了产品的几项原则：

优化长期用户满意度。大多数用户在回顾过去6个月时，应该觉得使用Sora让他们的生活变得更好

鼓励用户控制自己的信息流。用户应该能通过自然语言详细告诉Sora他们想看什么

优先考虑创作。让每个人都能轻松参与创作过程。

帮助用户实现长期目标。无论是想与朋友更多联系，还是想健身、创业，Sora都将努力提供帮助

OpenAI认为通用世界模拟器和机器人智能体将从根本上重塑社会。Sora 2代表了朝此目标迈出的重要一步

sora 2会成为抖音一样的超级APP吗？会成为一款颠覆性的社交应用吗？

以上，谢谢你看我的文章。觉得还不错的话，点个赞/在看/转发就更好了～想第一时间收到更新，记得给我加个⭐星标。～我们，下次再见

.../作者：花不玩

参考：

https://openai.com/index/sora-2/
https://blog.samaltman.com/sora-2

Sora 2 震撼发布！独立 App 上线，颠覆性「客串」功能打造首个 AI 社交宇宙

OpenAI发布Sora 2.0及独立社交App：称视频生成进入“ChatGPT时刻”

花旗大幅上调谷歌资本开支预测至1110亿美元，AI需求旺盛或将持续推高资本开