Sora 2 震撼发布!独立 App 上线,颠覆性「客串」功能打造首个 AI 社交宇宙
国庆节不过了,连夜干!!!
刚刚,就像爆料的一样OpenAI正式发布Sora 2
相比初代Sora模型,Sora 2在物理世界的准确性、真实感和可控性方面都实现了巨大飞跃,并首次加入了同步对话和音效生成功能
OpenAI表示,初代Sora是视频生成的“GPT-1时刻”,而Sora 2则直接跃升至视频领域的“GPT-3.5时刻”
最重磅的是Sora独立为APP,界面非常像抖音,主打创作、分享,以及一项颠覆性的社交玩法-“Cameo(客串)”的真人穿越功能,用户可以将自己一键置入AI生成的视频场景中
关于 Sora App 的推广计划,OpenAI 采取了分阶段的策略:
邀请制推出:为了营造一个以熟人社交为基础的社区氛围,应用将采用邀请制进行推广。成功注册的用户将获得四个邀请码,可以分享给自己的朋友
目前sora app,只在IOS系统提供,现在就可以下载(首批上线地区为美国和加拿大,计划将迅速扩展到更多国家),收到邀请后,用户也可通过sora.com访问Sora 2,Sora 2初期将免费提供,并设有慷慨的使用限制,Sora 2未来也计划发布API,安卓版本还在开发当中
Sam Altman把 sora 2称作创造力的ChatGPT时刻
以下是sora 2 发布会现场详细信息:
Sora 2 本体表现
Sora 2 在物理世界的模拟上达到了前所未有的高度。团队在发布中强调,新模型在运动(motion)、物理(physics)、智商(IQ)和对真实身体运动规律的精准模拟(body mechanics)方面都达到了业界顶尖水平。这意味着 Sora 2 能够更准确地理解和模拟复杂的物理交互。过去,像奥运会体操运动员的整套动作,或是在尾波滑水板上完成后空翻这类包含复杂动态和碰撞的场景,对于视频生成模型来说是极大的挑战。Sora 2 在处理这类复杂碰撞和动态建模方面表现得更为稳健,生成的画面感觉极其自然。例如,视频中展示的滑板爱好者完成踢翻的动作,其物理表现的精准度是以往模型难以企及的。这种对物理世界的深刻理解,是实现更高层次真实感的关键
其次,Sora 2 显著增强了模型的可控性。以往的视频生成系统通常需要用户以“逐个镜头”(shot-by-shot)的方式进行创作,很难在一次生成中构建一个包含多个镜头、叙事连贯的长故事。Sora 2 在这方面取得了突破,它能更好地理解和执行复杂的指令,在一次生成任务中讲述更长、更连贯的故事。这使得创作者能够摆脱碎片化镜头的束缚,更自由地构建完整的叙事,为短片、故事创作等应用场景提供了极大的便利
最后Sora 2 首次实现了视频与音频的同步生成。这是第一个能够同时生成视频和配套音频的 Sora 模型,并且它是一个非常通用的系统。这意味着用户生成的每一段视频都将自带声音,不再是无声的画面。这个音频生成系统能力非常全面,具体体现在:
多语言对话:能够生成涵盖多位说话者的多种语言的对话,并且口型同步非常自然,能够准确捕捉对话内容
环境音效:可以生成各种逼真的音效,例如环境中的风声、水声等
完整音景:能够创造出完整的音景(soundscapes),为视频增添沉浸感
此外,Sora 2 在风格多样性上也表现出色。许多早期的生成模型往往会陷入一种单一的美学风格,而 Sora 2 拥有极其广泛和多样的动态范围。无论是追求极致的现实主义风格,还是充满想象力的动漫风格,Sora 2 都能驾驭自如,并能覆盖两者之间的所有风格。这为全球创作者提供了无尽的创意空间,让人们能够以前所未有的方式将想象力变为现实
客串(Cameo)功能:化身万千,步入想象中的任何世界
在 Sora 2 带来的众多新功能中,最具颠覆性的无疑是客串玩法。这项功能是 Sora 2 独有的,它赋予了用户一种前所未有的能力:将真实世界的人物、宠物甚至物体,无缝地植入到任何由 AI 生成的虚拟世界或场景中。这不仅仅是简单的“换脸”,而是一种深度的人物和场景融合,让用户能够真正步入”自己的想象
Cameo 的核心工作原理源于 OpenAI 正在构建的世界模拟模型(world simulation models)。该功能通过观察一段关于某个主体(例如一个人、一只宠物)的简短视频片段,模型就能深度理解这个主体的外观、动态和特征。一旦理解完成,这个主体就可以像一个文本token一样,被注入到任何提示词中。这意味着,用户只需提供一个简单的视频素材,就能将自己或朋友“传送”到古罗马斗兽场、未来赛博朋克都市,或是任何能够想象到的场景中,并让他们在其中自然地活动和交互
为了确保这项强大功能的安全和用户自主性,OpenAI 设计了一套严谨的设置和权限流程:
创建与验证流程:用户若想创建自己的 Cameo,必须经过一个专门的流程。系统会要求用户录制一个动态的音频提示,并进行一次“活性检查”,例如根据指示移动头部。这个过程旨在通过多重验证,确保创建 Cameo 的是用户本人,从而有效防止身份冒用
精细化的权限控制:用户对自己 Cameos 的使用权拥有完全的控制。在设置中,用户可以决定谁有权使用自己的形象进行创作,选项包括“仅限我本人”(Only I)、“我批准的人”(People I approve)、“互相关注的好友”(Mutuals)或“所有人”(Everyone)。这一原则确保了任何人都无法在未经用户明确授权的情况下,使用其形象生成内容。用户的数字肖像权得到了充分的尊重和保护
个性化偏好设置:模型虽然强大,但并非完美,有时可能会“幻觉出”一些不符合用户特征的细节,比如给用户穿上紧身牛仔裤或赋予奇怪的口音。为了解决这个问题,用户可以在 Cameo 偏好设置(Cameo preferences)中进行调整,引导模型更准确地描绘自己。这种设置也可以用于娱乐目的,比如用户可以主动为自己的 Cameo 形象添加一个标志性的金项链或一顶有趣的帽子,为创作增添趣味
内容所有权与删除权:用户对自己授权创建的所有 Cameo 内容拥有完全的权利。这意味着,即使用户的朋友使用了其 Cameo 创作了一段视频,该用户也被视为该视频的所有者之一,并拥有随时将其删除的权力。这进一步强化了用户对自己数字身份的掌控
Cameo 功能的推出,被 OpenAI 团队视为一种全新的沟通方式。它超越了传统的文本、表情符号(emojis)或语音笔记,演变成一种基于视频的全新媒介。朋友之间可以通过 Cameo 共同出演一部微型电影,或是在一个奇幻世界里互动,这种充满乐趣和创意的交流方式,为社交带来了前所未有的可能性
Sora App:一个专为 AI 创意而生的社交新大陆
为了将 Sora 2 模型的魔力传递给最广泛的用户,并充分发挥 Cameo 功能的社交潜力,OpenAI 专门开发了一款全新的移动应用——Sora App。团队认为,Sora 2 所带来的体验已经超越了传统工具的范畴,它更像是一种全新的沟通媒介,因此需要一个全新的产品形态来承载。Sora App 的定位是一个以 AI 生成内容为核心的社交平台,旨在激发用户的创造力,并加深人与人之间的连接
Sora App 的界面设计看起来非常像抖音。有一个内容流、个人主页(p以及关注系统。但其核心区别在于,这个平台上的所有内容都是由人类用户通过 AI 生成的,而非机器人发布的垃圾信息。这创造了一种非常独特且新奇的体验,用户看到的不再是现实世界的快照,而是朋友们想象力
应用内的核心体验围绕着创造与互动展开:
动态流:用户打开应用后,会看到一个由其关注的人所创作的 AI 视频流
Remix 功能:这是 Sora App 的一个核心互动机制。当用户看到一个喜欢的视频时,可以点击 Remix 按钮,在其基础上进行二次创作。例如,看到一个香水广告,用户可以输入新的提示词,如“把它变成一个带有巨大羽毛的礼帽广告”,Sora 就会生成一个全新的、与原作相关联的视频。这个功能极大地降低了参与热门趋势和故事线的门槛,让每个人都能轻松地为社区的集体创作贡献一份力量
社交哲学:OpenAI 团队坦言,他们最初对一个完全由 AI 生成内容的平台持怀疑态度,担心它会削弱真实的人际关系。然而,内部测试表明,Cameo 功能反而以一种意想不到的方式拉近了人们的距离。因此,Sora App 的设计理念将重点放在加强朋友和家人之间的联系上。平台会优先推荐来自用户社交圈的内容,并提供一个专门的“关注”流,只显示用户已关注的人发布的内容
推荐:为了提升用户体验并给予用户更多主导权,Sora App 正在测试一项新功能,允许用户根据自己的心情来引导内容推荐。例如,用户可以选择“放松”或“动物”等模式,应用就会相应地展示更符合其当下心境的内容。
OpenAI的说法是Sora App 的目标不仅仅是成为一个内容消费平台,更是要成为一个激发每个人创造潜能的社区。它鼓励用户从被动的刷视频转变为主动的创造者,通过简单有趣的工具,将脑海中的奇思妙想变为现实,并与朋友们分享这份快乐
当然你可以完全把以上内容看做是OpenAI的宣传,说的很好听,到时候只怕玩的停不下来
防沉迷
针对社交媒体普遍存在的沉迷、孤立和算法投喂等问题,OpenAI提出了一系列应对措施:
用户控制信息流:用户可通过自然语言指示推荐算法,调整信息流内容。App会定期询问用户的使用感受,并主动提供调整选项
优先创作而非消费:App默认优先展示用户关注的人或能激发创作灵感的内容,不以“使用时长”为优化目标
强化社区联系:App采用邀请制,旨在鼓励朋友间共同使用,通过Cameos功能加强社区联系
青少年保护:为青少年设置了每日观看视频数量的默认限制,并对Cameos功能采用更严格的权限设置。家长可通过ChatGPT使用家长控制工具,管理滚动限制、算法个性化和私信设置
肖像权控制:用户对自己的Cameo拥有端到端的控制权,可以决定谁能使用,并随时撤销访问权限或删除包含其Cameo的任何视频
商业模式:目前唯一的商业化计划是,当计算资源紧张时,可能允许用户付费生成额外视频
Sam Altman的思考:创造力的“寒武纪大爆发”**
Sam Altman也发文表示,这感觉像是“创造力的ChatGPT时刻”,从想法到结果变得简单快速,带来了新的社交动态
他认为,创造力可能即将经历一场“寒武纪大爆发”,艺术和娱乐的质量将大幅提升。
同时,他也表达了忧虑,承认社交媒体的负面影响,如成瘾和霸凌。他强调,团队已深入思考如何避免Sora App落入由强化学习(RL)优化的垃圾信息流的陷阱。
为此,Sam Altman提出了产品的几项原则:
优化长期用户满意度。大多数用户在回顾过去6个月时,应该觉得使用Sora让他们的生活变得更好
鼓励用户控制自己的信息流。用户应该能通过自然语言详细告诉Sora他们想看什么
优先考虑创作。让每个人都能轻松参与创作过程。
帮助用户实现长期目标。无论是想与朋友更多联系,还是想健身、创业,Sora都将努力提供帮助
OpenAI认为通用世界模拟器和机器人智能体将从根本上重塑社会。Sora 2代表了朝此目标迈出的重要一步
sora 2会成为抖音一样的超级APP吗?会成为一款颠覆性的社交应用吗?
以上,谢谢你看我的文章。觉得还不错的话,点个赞/在看/转发就更好了~想第一时间收到更新,记得给我加个⭐星标。~我们,下次再见
.../作者:花不玩
参考:
https://openai.com/index/sora-2/
https://blog.samaltman.com/sora-2