文|新浪蜂鸟 金煜
编辑|李固
春节黄金周期间,互联网上涌现了一批令人赞叹的超短视频作品,它们以惊人的频率在全球范围内传播,每日都带来新的视觉盛宴。
这些视频作品,无一例外,均由人工智能完全独立生成,未经人手直接干预。
最早的视频之一,是描绘冰河世纪猛犸象的画面,精美程度可以秒杀侏罗纪公园或其它好莱坞CGI制作。
Sora示范视频。“提示词:"几头巨大的长毛猛犸象踏着雪地草地走来,它们长长的毛发随风轻扬,远处是白雪覆盖的树木和壮观的雪山,午后的阳光洒在飘渺的云朵上,远处的太阳高高挂起......“
来源:OpenAI官方X账号
另一个广为传播的视频中,长镜头跟随游客,扫过盛开樱花下的东京街景。专业人士使用其它AI视频生成平台以相同的提示词尝试制作时,惊讶的发现这部新视频在拍摄角度、画面的精细度,以及清晰度等多个维度上,均显著超越了以往的作品。
Sora示范视频。提示词: “美丽多雪的东京城热闹非凡。镜头穿过熙熙攘攘的城市街道,跟随几位正在享受美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣与雪花一起随风飞舞。”
来源:OpenAI官网
AI甚至模拟出170多年前,当摄影技术还未出现的加州淘金热时期的场景。而且,制作这个视频的提示词简单无比,显示了AI技术在理解和创造历史场景方面的惊人能力。
Sora示范视频。提示词:加州淘金热时期的历史影像。来源:OpenAI官网
这些具有前所未有高保真度的AI视频画面,彻底震惊了业内。
它们来自OpenAI新推出的视频生成平台Sora。
像搭积木一样重新排列创建视频
根据OpenAI的解释,Sora的名字取自日语“天空”一词,其目标是教人工智能“理解和模拟运动中的物理世界”,从而训练模型,协助人们解决需要现实世界互动的各种问题。
通过一个简单的提示词,Sora自动生成的完整视频长度长达1分钟。
当下的情形,与两年前人工智能静态图像生成出现时有些类似。
当时,OpenAI的DALL-E2和Midjourney以及Statble Diffusion几个公司几乎同时推出了静态图像模型,并且对外开放,允许数百万用户通过简单的文字提示,得到AI制作的奇妙图片。
而Sora的问世,意味着在视频生成领域迈出的一大步,也将竞争对手远远抛出了脑后。
OpenAI的创始人山姆·奥特曼(Sam Altman)再一次证实了自己的地位。就在前不久,他还刚经历了OpenAI与微软的“辞退风波”,重返OpenAI首席执行官后,他就通过Sora的推出,向世人证明他个人在AI行业的影响力。
为什么Sora更胜一筹?OpenAI并没有公开技术真正的内部运作,但基于一些公开技术报告,可以从中一瞥其创新秘诀。
明显的是,Sora借鉴了ChatGPT和DALL-E的关键技术经验:它将视频分割成同等大小的“补丁”片段,类似于ChatGPT训练模型时用的“令牌”。这些片段可以像搭积木一样,重新排列,创建新的视频,是视频生成更为高效和灵活。
它还基于DALL-E-3的扩散模型,把嘈杂的、不完整的数据,通过一系列反馈循环和预测计算,转换成清晰、连贯的视频内容。比如,为了做出一只正在玩耍的狗,AI会将无意义,模糊的点阵图(充满了技术噪音)变成了看起来真实的狗(“干净”的输出)。
小狗玩耍视频的AI生成过程。来源:OpenAI
Sora也和其它生成式人工智能模型一样,使用了变形器技术(Transformer,也就是ChatGPT中最后一个字母T的意思),并使用复杂的数据分析技术来处理海量的数据,辨别最重要的和最不重要的部分,并找出不同数据块之间的上下文和关联。此外,Sora还会为训练视频帧添加高度精细的字幕,帮助进一步修正视频。
Sora结合深度学习、自然语言处理和计算机视觉,不断跟真实现实比较,它的训练基础,是数百万个真实视频,使得它可以从现实世界中学习并理解视频的“语言”。
Sora的推出,很快在股市上产生了悲喜结果。图像制作软件巨头Adobe的股价在Sora发布后暴跌7%。主要受益者则是为OpenAI等模型提供核心计算芯片的英伟达。
其近期发布季度财报后,股价上涨了16%,相当于市值增加了2730亿美元。
传播公司EEAGLI制作的一段英伟达与英特尔股价比较的视频显示,受新冠疫情导致居家办公、游戏和疫苗研发需求高涨,英伟达股价此后开始反超英特尔,虽然随后受通胀等原因下降,但很快又凭借OpenAI的ChatGPT热潮再度快速高涨,成为当前科技领域名副其实的领军者兼最佳股票。
英伟达与英特尔公司自2014至今的股价比较。来源:EEAGLI
凛冬将至的电影工业
如同当初ChatGPT一度震撼各行各业,Sora的问世同样吸引了诸多领域的密切关注。
人们首先想到的是电影制作。好莱坞去年发生的罢工事件,已经显示了创意产业对ChatGPT取代他们工作的深度焦虑。现在,轮到电影制片人和特效制作公司坐立不安了。
一些人已经迅速反应。好莱坞演员、制片人Tyler Perry在Sora推出后,立即宣布,暂停8亿美元的工作室扩张计划。
整体上,长片受到的直接影响可能有限。目前的Sora视频只长至一分钟,而每次用类似的提示词生成视频,AI生成结果都不尽一致,因此,是很难把60个短视频拼成一部连贯的长电影的。
尽管如此,动画领域可能会感到不安。此前,皮克斯公司最引以为豪的,是耗费数月和大量人力资源制作出来的精细动画细节,如人和动物有着超复杂纹理的毛发,而现在,Sora几秒钟就能制作出同等精美的效果。
国际动画电影协会好莱坞分会临时执行主任Aubry Mintz对媒体表示,如果Sora开始用于参考动画、概念制图和故事板,一些专业人士有可能会失业。但他同时表示,从CGI到计算机动画软件,好莱坞经历了很多次技术进步,它应该也能从人工智能创新中幸存下来。“它们(AI)无法复制人类的创造性思维,也无法做出创造性决定,这是人类艺术家们几个世纪以来一直在做的。”
事实上,最先释放出巨大创意潜力的,很可能是短视频领域。根据OpenAI官方介绍,除了文字转视频之外,它同样具备从静态图像转化为视频的能力,因此,今后,创意人士除了用提示词外,还可以将自己创作的图画,通过AI转化为视频,这开启了个人创作全新的可能性。
人工智能电影制作组Curious Refuge对媒体表示,迫不及待地想要使用这款工具了。
一旦Sora对外开放,最先开始采纳的,很可能是短视频博主和制作商,会出现一大批充满创意的人工智能合成视频。另一个带来机遇的是广告和营销领域,ChatGPT已经成为了营销工具的一部分,Sora也很可能会很快为广告设计、营销活动制作出吸引眼球的视频内容。
教育培训机构也很可能从中受益,相关公司可以利用Sora开发出针对特定主题和场景的教育和培训视频,增强学员的学习体验---例如,想象带孩子进入AI制作的逼真的史前世界,或战火纷飞的二战现场中讲解古生物和历史。
AI视频未来还可以应用于各类动态商品演示,给电子商务、零售商、网络带货等行业带来全新的商品展示模式。比如,AI视频可以用于虚拟试穿,让顾客可以直观看到新衣服穿在身上的效果,这就大大减少了网购带来的不确定性。
《纽约时报》的起诉与备受期待的新法律框架
对视频生成工具被滥用的担忧从技术诞生第一天起便存在。高仿真的视频内容,会以假乱真,传播错误的,危险的信息,以“深度仿造”的形式破坏社会结构,给个人带来灾难。此前,就出现了过将名人嫁接到色情明星身上或仿造政客言论等虚假视频,使得传播这些视频的社交媒体广受批评。
现在,Sora生成视频的逼真程度再次引发担忧,其一旦被社会滥用,后果可能甚为不堪。因此,Sora也十分谨慎。目前尚未对公众开放(只针对少数一些进行风险测试的人员,以及特定的视觉艺术家和电影制片人开放),OpenAI也没有说明何时开放。
根据OpenAI的说法,要达到正式对外开放的程度,需要设置一些安全防护措施,比如无法生成极端暴力、色情、仇恨画面或名人肖像的视频。OpenAI也可能计划在Sora视频中加入源数据,表示这些视频是人工智能生成的,从而防止视频滥用。
对于Sora多大程度上具有革新意义,现在的各类讨论也很多。很多人震惊于视频逼真程度的同时,人工智能专家也再一次看到了AI的本质局限。《华尔街日报》邀请的AI专家表示,仔细看,Sora发布的这些逼真视频,充斥了很多物理上,或常识上说不过去的地方。
当对象是人的时候,总有一些地方让人凭直觉,感觉到奇异之处。比如烧意大利菜的老奶奶,她挥手的动作,就显得很奇怪,真人不会这样挥手。
Sora示例视频。提示词:祖母主持的自制土豆面疙瘩烹饪指导课程。来源:OpenAI
场景视频也有很多细节错误。如模仿无人机拍摄的意大利海边城市的视频,波浪向外而非向岸边推动,违反了物理常识。此外,上面的一些台阶也突然中断,显示AI只是把各种不同视频中的台阶摘录过来,但并没有按照常识将其连接到建筑上。
Sora示例视频。提示词: 一架无人机围绕着阿马尔菲海岸一座建在岩石上的历史悠久的美丽教堂拍摄,画面展示了历史悠久、宏伟壮观的建筑细节以及层层叠叠的小径和天井,海浪拍打着下方的岩石,俯瞰着意大利阿马尔菲海岸的海岸水域和丘陵地貌的地平线、 远处有几个人在散步,在天井中欣赏壮丽的海景,午后温暖的阳光为这一场景营造出一种神奇而浪漫的感觉,精美的摄影作品捕捉到的景色令人叹为观止。
而引发赞誉的淘金热时期仿古胶卷,专家指出,里面并列着来自不同历史时期的建筑,而且,视频中人和马顺着右边按秩序走路,完全是现代马路的交通规则,在古时是不存在的。视频中也存在马走着走着就消失了的情况。而在东京街景的画面中,也出现马路上的汽车开着开着就消失了的情况。
OpenAI也公开承认,模型在因果关系、混淆左右、遵循轨迹等方面还存在问题,也“没有准确模拟许多基本交互等物理过程“。
这些问题,在两年前静态图像模型大红大紫的时候,也都出现过。当时,就有人批评这些静态图像笨拙、呆板、缺乏人性,有的还存在明显缺陷。有人工智能专家认为,AI无法处理“构图性“,不知道如何组成场景元素,这反映了人工智能技术的根本缺陷。
此后,DALL-E3和Midjourney的静态图像生成的确得到了很大的进步,对场景元素的处理更为逼真,更少出现逻辑错误。因此,Sora很可能也会快速,很可能不远的一天,至少对于大众而言,真的会出现真假难辨的那一刻。
一个重要挑战,是版权问题。OpenAI方面表示,训练数据来自授权内容和公开内容,但已经有知识产权持有者在质疑,这数百万训练视频中,到底有多少是“公开内容”了,模型有可能在不经意中使用的视频侵犯了现有版权。
OpenAI本身已经因版权侵犯和知识产权问题多次遭到了起诉。去年,《纽约时报》就其数百万篇文章被侵权用于训练ChatGPT,而将OpenAI和微软告上法庭,该案的最终判决结果将定义人工智能生成技术与知识产权关系的新法律框架。去年,OpenAI向英国上议院承认,如果不使用受版权保护的资料,就不可能训练出当今领先的人工智能模型。他们在自己的博文中为自己辩护,称纽约时报的诉讼“毫无根据”,该公司称,如果无法获取受版权的资料,人工智能的发展将是“不可能”的。
这一说法激怒了一些业内人士。著名的人工智能批评家Gary Marcus对此写道:“简略翻译就是:你如果不让我们盗窃,我们就不会暴富,所以请不要让盗窃成为犯罪……当然,网飞公司可以一年支付数十亿美元的许可费,但‘我们’不应该也这样!”
在另一篇文章中,Marcus写道:“四十年前,当我开始研究人工智能时,我根本没有想到它最大的用途,竟然是衍生模仿,并把艺术家和其它创作者的价值转移给巨型企业。“
不管如何,潘多拉的盒子已经打开。AI生成的视频最终将全面渗透到我们的生活中。它究竟会如何改变我们的社会,会产生怎样正面抑或负面的影响,更多取决于技术之外的因素,特别是人工智能行业如何设计规则,规范自己,并与版权所有者、创意人士以及监管机构等实现共赢共治的程度。
评论