经历了ChatGPT、Midjourney等一系列AI技术轰炸,世界的概念于我们似乎已经地覆天翻。近期OpenAI研发的文生视频AI模型Sora更是把这一话题推到风口浪尖。仅靠文字描述就可以生成长达一分钟的主角一致的高清流畅视频,这一从前的天方夜谭如今已成现实。 曾经的蒸汽时代,车马逐渐被机械取代,新的技术总会用极其迅猛的姿态入驻。影视行业是否会被冲击?视频制作是否再也无需人工?一系列的问题汹涌而至。AI当然会引起人们两极分化的不休争论,Sora的孰是孰非也难以在如今的内测阶段(或者说未来的很长一段时间)得到确定。
但可以肯定的是,在这一时代的洪流巨变中,人们无法独善其身。当AI科技来袭,设计师成为最关注这一议题的群体。我们不能预测AI对我们的未来会是积极还是消极,但从这些设计师观点里,我们或许可以洞察一些未来的可能。 IDEAT理想家以此为开端,对话不同行业的设计师们。本期,我们将与四位来自建筑和空间设计相关领域的设计师及AI从业者共聊,并向他们发问:当Sora出现,我们的生活是否会变得更美好? 胡海杰 VAVE Studio联合创始人
对于Sora,你持有一种什么观点? Sora作为一个应用软件,可以去聊的是软件本身和软件背后的世界观。当然,这也是目前为止唯一正儿八经可以作为生产工具的AI视频软件。这里我想引援一位朋友的话:“大刘(刘慈欣)有一篇短篇科幻:《镜子》里面描绘出有一个可以镜像现实世界的‘镜子’。今天看来OpenAI就是这个构建世界模型的‘镜子’。今天发布的Sora可以生成60秒的视频大家就统统说要颠覆影视行业了。但是随着‘世界模型’的构建,Sora只是通过‘视频’来建立一条和物理世界链接的‘通道’。我们今天只是一群站在门口看到‘通道’就惊叹不已的‘人类’。“ 你认为Sora与目前市面上的AI生成视频软件有哪些不同?你是否体验过目前市面上已有的该类软件? 我有用过一些AI视频软件,比如之前很火的Pika,但本质上这些软件都是用的都是扩散模型,这只是一种算法。再往前推演一步,这些算法,或者叫做“学习”,还是基于“中文房间”的弱人工智能。而Sora用的是世界模型,虽然我也不知道(可能也没人知道)这个世界模型的仿真度到底是架构到哪个层面了。基于前段时间的GPT-5的能力大放送,ChatGPT的都市传说,OpenAI的宫斗,马斯克的ChatGPT一些回应的担忧,Sora的世界模型......?我们有理由相信,人工智能开始系统性地理解我们这个物理世界了。
中文房间(Chinese room)的提出者,美国哲学教授约翰·瑟尔。该思想实验借以反驳强人工智能的观点。根据强人工智能的观点,只要计算机拥有适当的程序,理论上就可以说计算机拥有它的认知状态并且可以像人一样进行理解活动。 Sora目前还处于内测阶段,对于目前网络上流出的内测视频片段,你的感受是什么?有喜欢某一段吗? Sora先理解了物理世界的规律,再把规律映射到60秒的视频里面。当然印象最深刻的是东京街头的女性。原因不是其他视频风格的creativity,而是来源于Fidelity(仿真)。
作为设计师,你认为Sora在未来将如何与你的行业结合? 回归到软件本身吧。作为空间体验设计师,我们通常要创作内容旅程,空间旅程和体验旅程三个维度的东西,这时候我们的优势就来了。目前Sora可以解决内容旅程的测试,视觉表现以及通过视觉表现实现客户的认知同步问题。但按照“世界模型”的逻辑以及AI的指数性迭代速度,未来很难说。 你觉得当下的相关行业是否会被冲击?Sora的出现是否会让我们的生活变得更好? 在世界观层面,是不是让我们的生活变得更好还得从《黑镜》里面找灵感。但在在运用层面,目前流出的还只是Sora1.0的东西,本质上和Midjourney的行业冲击是一样的,它给视觉行业提供了很多弱定制化的成果,或者反过来说,是高度定制的素材。比较妙的点在于,因为不需要版权,它率先冲击的是图库(视频库)行业。对影视行业的冲击也是肯定的,既然可以从文字脚本直接跳到结果,那谁要这一长条影视圈流水线呢。 在未来,一定是会讲故事的人拥有世界,而对故事的实践,就交给人工智能吧!当然,从人类的本质而言,我们希望得到的是一个法力无边的工具,一个无脑小叮当,而不是一个新的“soulmate”。 刘阳 大料建筑创始人
对于Sora,你持有一种什么观点?你会因为什么对它产生好奇? Sora的视频生成效果着实惊艳,它的出现让我意识到AI的进化速度比想象中要更快。作为建筑师,我更好奇的是它是否能够作为设计的工具,并为我们带来设计工作视角的转变——比如表达更全面更精细化的设计效果,或者节约更多时间等。 你认为Sora与目前市面上的AI生成视频软件有哪些不同? 目前我们工作室还没有将AI作为生产力工具大量地投入到设计工作中,但我个人出于兴趣还是稍微尝试了一下。在我的感受里,也许sora与runway、Pika等目前常见的AI生成视频软件最大的不同还是它有自己的思考,能够更复杂、更真实地生成更长时间的视频吧。希望利用AI有了得意之作之后可以与大家交流。
Sora目前还处于内测阶段,对于目前网络上流出的内测视频片段,你的感受是什么?你最喜欢哪一段视频? 最记忆深刻的还是发布的第一个视频——一位打扮摩登的女性走在日本街头。变幻的光线和镜头画面,环境中闪烁的霓虹、潮湿的地面和墨镜反射出来的街景,或许可以说明sora生成出的图像能够基本符合大部分物理世界或人的感知规律。说不定在未来是能够作为一个常规生产力去向更深层发展的。
作为建筑师,你认为Sora在未来将如何与建筑? 从建筑师的角度来说,我个人更希望AI作为工具而存在,它的存在是为了更全面地表达设计思路,而非提供源源不断的灵感来源。如果真要结合进设计的话,我希望Sora能够与现在的各类绘图软件结合,快速表达出更生动的设计效果,来提高设计效率。 你觉得当下的相关行业是否会被冲击?Sora的出现是否会让我们的生活变得更美好? 关于这一问题,我其实仍然怀有相对保守的态度。对大料来说,我一直希望我们的建筑能够链接建筑师、建筑与其他人之间的关系,人们通过对我们建筑的观察或使用来接收到更多刺激,从而发现自我。大量的使用AI工具,也许工作效率会得到提升,但创作的内核始终还是由具体的人来把控。所以这也是我认为AI难以取代建筑师的一个重要原因。Sora的出现也许会让我们的生活变得更加光怪陆离,每个个体都不得不反复判断面对的真实是什么,过去大家说“有图有真相”“有视频为证”,恐怕之后“真实”要被重新定义了。(笑) 徐帆 沙粒科技发起人 b站@AI设计研究室
你认为Sora的最大特点是什么?你认为Sora与目前市面上的AI生成视频软件有哪些不同? Sora主要最大的特点就在于它和其他AI生成视频的算法有所区别,他使用扩散模型结合transformer,并使用“时空patch”大一统了训练素材,这样训练素材的时长和大小都能够更加自由,这也解释了为什么sora能够实现全局的一致性而且没有传统AI视频的闪烁问题。目前的Runway或Pika,它们都有一些共同的特征,即刚刚提到的全局无法统一,这些是之所以Sora让我很惊艳的最主要原因。 你的工作如何与AI关联?是否能够分享一下你的AI生成作品? 其实我一直专注于人工智能与设计,我的工作室也致力于对数字化与AIGC在实际项目中运用实践的研究,目前已经涉及室内、建筑、城市、IP形象与服装等设计领域。并希望通过对研究成果的开源和科普加速行业革新。下面是一些我们通过AI技术生成的一些作品。
AI生成图像,图片来源自沙粒科技。 Sora目前流出的内测视频片段,你的感受是什么?你最喜欢哪一段视频? 我最喜欢的是那个三只小狗在雪地里面有雪花飘过,它们的毛发质感特别好。
作为AI从业者,以及曾经的建筑师背景,你认为Sora在未来会产生什么影响?又将如何与建筑或设计结合? 未来影视行业肯定会被影响,Sora的出现将大大缩短影视的制作流程。而且因为它已经实现了使用扩散模型去实现全局一致性,它对于AI生成3D的质量也达到了质变的影响,未来一定可以基于此实现一个三维模型的生成。设想在建筑或是室内设计中,通过文字就可以生成全局一致的三维模型,这带来的震撼无疑将是巨大的。 你觉得当下的相关行业是否会被冲击?Sora的出现是否会让我们的生活变得更美好? 其实这一切暂时都还是未知数,因为没有人实际使用过Sora,所以无法做出一个具体的评判,但等到我们真正使用它,而且能够实现现在OpenAl发布的这些预告片的效果,那么它一定会带来巨大的风波。希望它能够成为大家创作有力的工具。 李乐贤 建筑师
你如何看待Sora? 很矛盾的感受,一方面会极大提升影视和游戏ACG的出品效率,并且降低技术门槛。另一方面行业的工作量会倾斜到故事与脚本层面,工作量和沟通成本可能会提升。而大量从事渲染和拍摄的技术人员可能会被取代,被迫转型。我其实对任何划时代的技术都抱有好奇心。不仅仅是Sora,同类的文生图或视频的产品有很多,包括了Invideo、Trend、Hourone、Fliki还有谷歌旗下的Gemini 1.5......只不过Sora有OpenAI的基础和ChatGPT的背景,因此获得更多关注。 你认为Sora与目前市面上的AI生成视频软件有哪些不同?你是否体验过目前市面上已有的该类软件? 目前我在美国的合伙人有测试过上一个版本的Sora,与其他产品相比,它会有更多的提示词引导和补充,同时生成视频的速度更快,清晰度也比较高。这些AI文生视频图片的基础是原有的数据库,以及对语言模型的精准理解。算法层面的差距会逐渐减小,主要竞争力是算力和数据可达性。我目前用过Fliki和Invideo,前者的idea box和上传媒体数据选择更多一些(有点像AI版的剪映,可以帮助你剪辑成很多段);后者则没有太多选择,只是输入一段话,然后就直接生成视频了(比较适合新手玩家)。但目前这两个只能算Midjourney的视频编辑版本,并不能输出长时间的渲染视频,而且出品素材都是拼凑来的。
Fliki和Invideo的操作界面。 Sora目前还处于内测阶段,对于目前网络上流出的内测视频片段,你的感受是什么?你最喜欢哪一段视频? 非常期待,因为作为内容创作者,特别是在海外媒体上需要获取版权。制作成本会降低,出品质量会通过Sora的应用提升,并且视频内容与文案和脚本的匹配度也会大幅度提升。我比较喜欢那段:一个宇航员,戴着红色羊毛编织头盔,走在白色沙漠上的片段。这么离谱的提示词,最后居然可以整合出来这么精准且有电影质感的视频。
你如何看待Sora对传统视频制作的影响? 在表现层面,我认为传统的动画和视频制作的方式会被颠覆。目前大家都是用3D MAX,MAYA之类的软件先建模,然后设置相机和模型的运动方式与路径。但未来有了AI的辅助,制作难度和成本会大幅降低。毕竟真正有效的画面切片往往就几秒到几分钟,AI已经完全可以达到这个时长的制作。可能未来的问题是逆向工程,怎么把这些“拼凑”出来的素材给模型化和物理3D化。 你觉得当下的相关行业是否会被冲击?Sora的出现是否会让我们的生活变得更美好? 会的,但是真正应用这个技术的人是谁很重要。如果编剧或者导演等领头人物不去使用,只是让技术人员使用,冲击会比较小。Sora会让内容的丰富度增加,我们浏览到的自媒体内容出品质量提高,这是一个提高下限的技术。 |