您的位置:创新中国网 > 经济

您还可以向Phenaki输入初始帧和提示来生成视频

发布时间:2022年10月07日 16:01 来源:IT之家 编辑:山歌   阅读量:4102   
导读:生成内容AI,进入视频时代! Meta的带嘴视频发布仅一周,谷歌CEO柴柴就接连派出两名选手参赛。 相比Meta的Make—A—Video,firstImagen视频的清晰度很高,可以生成1280*768分辨率,每秒24帧的视频片段...

生成内容AI,进入视频时代!

您还可以向Phenaki输入初始帧和提示来生成视频

Meta的带嘴视频发布仅一周,谷歌CEO柴柴就接连派出两名选手参赛。

相比Meta的Make—A—Video,first Imagen视频的清晰度很高,可以生成1280*768分辨率,每秒24帧的视频片段。

另一位选手Phenaki可以根据200字左右的提示生成2分多钟的长镜头,讲述一个完整的故事。

看完之后,网友们纷纷表示,这一切进步太快了。

也有网友认为,这项技术一旦成熟,将会冲击短视频行业。

那么,这两个AI的具体能力和特点是什么呢我们分开来看

Imagen视频:理解艺术风格和3D结构

Imagen视频也是基于最近大火的扩散模型,直接继承了SOTA模型Imagen,五月的图像生成模型。

除了高分辨率,它还显示了三种特殊能力。

首先,它可以理解并生成不同艺术风格的作品,比如水彩画或像素画,或者直接梵高风格。

它还能理解物体的3D结构,在旋转显示中不会变形。

最后,它继承了Imagen对人物的精准描述能力,并在此基础上,仅通过简单的描述,制作出各种创意动画。

这种效果,直接作为一个视频的标题也不过分吧。

除了出色的应用效果,研究人员表示,其中使用的一些优化技术不仅对视频生成有效,还可以推广到一般的扩散模型。

具体来说,Imagen Video是模型的集合。

语言部分是谷歌自己的T5—XXL训练后,它冻结文本编码器部分

与负责从文本特征映射到图像特征的CLIP相比,有一个关键区别:

语言只负责编码文本特征,把文本到图像转换的工作留给后期的视频扩散模型。

基本模型基于生成的图像,以自回归方式连续预测下一帧首先生成48*24,每秒3帧的视频

接下来,一系列空间超分辨率和时间超分辨率模型相继对视频进行扩展。

七种扩散模型都使用v—预测参数化方法,与传统方法相比,可以避免视频场景中的颜色偏移。

这种方法推广到一般的扩散模型,也使得样本质量指数的收敛速度更快。

此外,还有渐进式蒸馏,将每次迭代所需的采样步骤减少了一半,大大节省了内存消耗。

这些优化技术相加,最终使生成高清视频成为可能。

费纳基:每个人都可以成为导演

Phenaki的论文提交给了ICLR 2023大会,当Meta在一周前发布Make—a—video时,它仍然是匿名和双盲的。

现在信息公开了,原来的研究团队也来自谷歌。

在公开资料中,Phenaki展示了其交互生成视频的能力,可以任意切换视频的整体风格:高清视频/漫画,也可以切换任意场景。

您还可以向Phenaki输入初始帧和提示来生成视频。

这还是开胃菜,Phenaki真正的绝招是:讲故事可以生成2分钟以上的长视频,输入一系列200多字的提示即可获得

从文本提示到视频,高计算成本,高质量文本视频数据量有限,视频长度可变一直是这类模型发展中的难题。

过去,大多数AI模型通过单一提示生成视频,但这远远不足以生成一个长而一致的视频。

而Phenaki则可以生成2分钟以上的视频,它也有故事情节,这主要是因为它能够根据一系列提示生成视频。

具体来说,研究人员引入了一种新的因果模型来学习表示视频:视频被视为图像的时间序列。

该模型基于transformer,可以将视频分解成离散的小表示,视频的分解是按照时间的因果顺序进行的。

说的通俗一点,就是通过空间转换器对单个提示进行编码,然后用因果转换器将多个编码后的提示串联起来。

一个提示生成一个视频,这样视频序列就可以沿着提示中描述的时间顺序把整个故事串起来。

由于视频被压缩成离散的图像序列,也大大减少了AI处理的标记视频的数量,在一定程度上降低了模型的训练成本。

说到模型训练,像大型图像系统一样,Phenaki主要使用文本—图像数据进行训练此外,研究人员还使用帧率为8FPS的1.4秒短视频文本来训练Phenaki

只有通过大量图像文本对和少量视频文本实例的联合训练,才能达到突破视频数据集的效果。

Imagen Video和Phenaki,Google相继放出大招,从文字到视频的AI发展迅速。

值得一提的是,Imagen Video表示,两个团队将在下一步的研究中展开合作。

嗯,有网友等不及了。

还有一点

出于安全和道德原因,谷歌暂时不会发布这两种视频生成模型的代码或演示。

可是,既然论文已经发表,开源副本的出现只是时间问题。

毕竟,Pytorch版本出现在GitHub上仅仅是在Imagen论文问世几个月后。

此外,stability Diffusion背后的StabilityAI创始人兼CEO也表示,将会发布比Meta的Make—A—Video更好的模型,而且会是大家都可以用的那种。

当然,每次AI有新的进展,必然会遇到那个话题——AI会不会取代人类。

老实说,作为一个在电影行业工作了十年的人,这个话题很让人沮丧。

在他看来,现在的视频一代AI在外人看来已经足够惊艳,但业内人士会认为AI仍然缺乏对每一个镜头的精细控制。

关于这个话题,StabilityAI的新任首席信息官丹尼尔·杰弗里斯此前撰文指出,AI最终会带来更多的工作岗位。

比如,照相机的发明虽然取代了大部分肖像画家,但也造就了摄影师,开辟了影视等新产业。

五年后回头看,反对AI和现在反对Photoshop一样奇怪AI只是另一个工具

杰弗里斯说,未来是环境人工智能的时代,所有的行业和领域都将在人工智能的加持下发展。

但我们现在需要的是更开放的人工智能环境,也就是开源!

最后,如果现在想玩AI生成的视频,可以先在HuggingFace上试试清华和致远实验室的Cogvideo。

图像:

Phenaki:

Cogvideo演示:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

专题报道