首页研究报告券商报告人工智能【信达证券】生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成(2024)
在在

文档

3951

关注

0

好评

0
PDF

【信达证券】生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成(2024)

阅读 627 下载 6 大小 6.67M 总页数 54 页 2025-11-28 分享
价格:¥ 9.90
下载文档
/ 54
全屏查看
【信达证券】生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成(2024)
还有 54 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 54 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
Research and生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成信达证券CINDA SECURITIES证券研究报告AI+视频的星辰大海远不止于创意视频的生成行业研究2024年07月28日行业专题研究(深度)本期内容提要:站在当下,本报告研究A+视频的意义:技术和产品选代升级较快导AI行业致目前市场大多数报告无时效性,且往往峡少对产品的实际测试以及投资评级看好对相同提示词的比校分析,而A1视频生成正成为当前AI产业发展的关健节点。视频杂糅了文本、语音、图像等多维度内容,其训练的难点上次评级看好也往往在于视频数据对数量和质量的不足、算法架构霄要优化、物理规律性较差等等,但随着A1+视频的技术和产品升级迭代,众多行业有冯翠婷待蝶互联网及海外首席分析师望受蓝,诸如电影、广告、视频剪辑、视频流媒体平台、UGC创作平执业编号:S1500522010001联系电话:17317141123台、短视频综合平台等,而目前正处在A+视频发展的关键性时刻,箱:fengcuitingecindasc..com市场主流的AI视频生成技术选代路径经历了早期的GAN+VAE、Transformer、Diffusion Model以及Sora采用的DT架构(Transformer+Diffusion),技术选代升级带来视频处理质量上的飞跃性提升,VAE引入了隐变量推断,GAN生成的图像真实清晰,VAE+GAN的串联融合可以实现数据的自动生成+高质量图像生成;Transformer在并处处理、长时间序列数据处理、多注意力处理上有着强大的优势,通过预训练和微调可提高模型性能;扩散模型可解释性强,可生成高质量图像和视频;李飞飞联合谷歌研发的WALT视频大模型将图像和视频编码到共享潜在空间中,So「a采用的DT架构有效进行结合,利用Transformer处理潜在空间中的图像数据块,模拟数据的扩散过程以生成时长更长、质量更高的图像和视频,我们认为,国内AI+视频产品单条价格低于海外产品,其中RunwayGen-3 Alpha和快手可灵为目前Al视频生成的全球第一梯队,在视频分辨率、生成速度、物体特合物理规律、提示词理解、视频时长等请多维度上表现均校为优秀。核心梳理国内和海外市场A!视频生成的核心参与者,如海外Luma Al(Dream Machine)、Runway(Gen1-2&Gen-3 Alpha)、Pika、Sora,国内快手可灵、美图、PixVerse、剪映即梦、清华Mdu、七火山Etna等,集中梳理了众多产品的融资历程、产品迭代、核心功能、实测效果比较等多方面,经过我们测算,目前Al+视频主流产品的单条视频生成价格分别为:uma Al0.16美元(1.17rmb)、Pika0.05美元(0.364rmb)、Runway0.48美元(3.49mb)、快手可灵0.5rmb、字节剪映即梦0.04mb、爱诗科技Pixverse V2为0.02美元(0.174mb)、美图WHEE为0.32rmb,国内A+视频产品单条价格较低,质量不差,不止于视频生成,从AI生成到AI工作流,一站式AI视频生成+剪抨+故事创作有望成为产业核心发展方向,目前,A+视频大多数用于创信达证券股份有限公司意内容生成,直接用于ToB商业化较少。违潮原因,首先生成视频的CINDA SECURITIES CO.,LTD人物一致性、所需时长、画面质量尚且不满足立即商业化水准。其次,我们发现目前主流A|视频工具还处在视频生成竟争的阶段,且大多数邮编:100053为单一功能产品。在视频生成之后,请如准确的提示词生成、修改视信达证券CINDA SECURITIES频片段、添加字幕、脚本生成、转场衔接、背景音乐添加等众多细节功能暂未集成,因此现今阶段还需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果,环节紫项、多工具之间的格式也可能存在不兼容的可能性,给用户带来使用上的不便,因此我们认为,后续需要持续关注能够一站式提供视频生成+编枰等功能的企业,了解用户痛点,打磨产品细节,才能真正将技术用于生产工作、娱乐等众多环节,带来商业化变现的潜在空间,一站式A|视频生成&剪辑&UGC创作有望解决市场一直在质疑的“AI+视频没有实质作用问A+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)A+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪样类公司,如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利歌股份;5)UGC社区类公司,如Bilibili;;6)视频数据类公司,如捷成股份、华策形视、视觉中国、中广天择;7)P类公司,如频工作流及其他创作方向类公司,如博纳形业、超讯通信、柠萌形视,9)其他建议关注满眼娱乐、光战传媒、芒果超蝶、万达电形等。风险因素:A底层大模型发展不及预期、A|视频技术迭代不及预期、A1视频产品付费渗透率提升不及预期,请阅读最后一页免责声明及信息披露http:wwww.cindasc..com3信达证券CINDA SECURITIES目录一、生成式A!发展进程,文生视频正成为当前A川行业关健发展节点,6二、目前市场主流的海外生成式视频参与者…三、目前布场主流的国内生成式视频参与者28四、从Al生成到A小剪辑,一站式A1视频生成+编辑有望成为另一核心方向…34六、风险因素…表目录表1:Transformer、.Diffusion、DiT模型的产品梳理表2:Runway历年融资轮次、融资金额及对应估值,表3:Luma Al、Pika、Runway Gen-3 Alpha、Soa相同提示词生成视频的效果多维度比较.27表4:海内外视频生成产品单视频所需成本比较(1关元=7.28人民币)…28表5:Ad0be数字媒体业务和数字体验业务预估市占率.42表6:快影和剪映产品相关数据表B:IP类公司可基于AI+视频开发更多IP衍生品表10:相关上市公司估值表(裁至2024.07.24)图3:主流文生视频技术的演进路径.…图4:AGC视频生成的技术演进路径…图5:GAN生成对抗网络运作原理8图7:WALT视频生成模型搭建原理示意图图9:2023年生成式A+视频时间表…图10:Luma A小Dream M阳chine官网宣传文生视频功能al6图11:Luma Al Dream Machine官网宣传前后帧输入图片生成连贯视频功能l7图12:Luma Al Dream Machine实测演示中会遥到不符合物理规律、物体对象缺失等问题.17图13:Runway产品定价模式m图15:Runway Gen--1视频生视频演示.20图16:Runway Gen-2文生视频效果表现较好图17:Runway Gen--2图生视频效果及笔刷功能表现较好图l8:Runway Gen-3Apha通过运动画笔、高级相机控制、导演模式可以更精细控制运动21图19:Runway Gen-3Apha两端提示词测试,效采较强22图20:Adobe产品中引入第三方视频模型Pika优化用户体验请阅读最后一页免责声明及信息拔露htp:wwww.cindasc..com4信达证券CINDA SECURITIES图23:OpenAl扩散模型过程…图25:Luma Al Dream Machine生成效果(电影质感,咯微不符合物理规律25图26:Pka生成效果(提示词理解、画面质感等方面有差距)26图29:快手大模型产品矩阵及可灵A产品功能升级m30图39:后续Firefly关于多模态音频、视频方向上的功能展望.36图40:Adobe Firefly集成第三方大模型如Runway、OpenAl Sora用于视频剪辑36图41:Captions Al Shorts功能.37图43:可里达摩院“寻光”一站式视频创作平台视频编辑功能.图45:关图M0KA短片产品n图46:商汤Vimi人物视频生成m.40图47:智象大模型升级2.0版本m….40图48:智向未来即将上线一站式分镜头故事创作视频生成功能..42图50:Adobe Express在24年4月选代A功能后,日活数骤然抬升并稳定提高.43图51:Adobe Premiere Pro引入第三方模型如Pika、OpenAl、Runway生成视频.43图52:美图公司底层、生态层、应用层架构…图53:Vimi在人物一致性功能支持下打造的数字分身打造Al视频功能、Al表情包功能.…45请阅读最后一页免责声明及信息拔露http:/wwww.cindasc.com5信达证券CINDA SECURITIES一、为什么要研究A+视频一A视频生成正成为当前行业发展关键节点2023年红杉资本在关于生成式A1发展进程的预测报告中表明,在历经文生文、文生图的升级选代后,我们目前正处在Al+生产力办公&设计、A+视频和Al+3d渗透的历史节点上,在底层大模型技术迭代逐渐加速的今天,A|文本对话、A文生图、A陪伴等方向已经逐渐成为竞争激烈的主要方向,展望未来我们需要对更多A+做深入的研究,而视频方向一直是业内关注的重点方向之一,视频杂糅了文本、语音、图像等多维度内容,其训练的难点也往往在于视频数据对数量和质量的不足、算法架构需要优化、物理规律性较差等等,但我们相信,随着A+视频的技术和产品升级迭代,众多行业有望受益,诸如电影、广告、视频剪辑、视频流媒体平台、UGC创作平台、短视频综合平台等,而目前正处在A+视频发展的关键性时刻,正从A1+视频创意生成逐渐过渡到一站式视频生成+剪辑+UGC的后续阶段,PRE-2020202020222023?2025?2030?Spam detectionTEXTBasic copy writingLonger formFinal drafts betteFirst draftsthan the numanBasic Q&ASecond draftsMulti-line generationLonger formMore languagesCODE1-line auto-completeBetter accuracyMore verticalsArtMock-ups (productFinal drafts (productFinal drafts betterIMAGESLogosPhotographyVIDEOAl RobloxGAMINGFirst attempts●Ready for prime time在红杉资本2024年关于A1应用的地图梳理中反映了市场中的两个重要趋势:生成式人工智能从技术趋势演变为实际应用和价值,以及生成式人工智能应用日益呈现多模态的特性,可以看到,A视频生成及编辑的版图占比较多,重要性和产品推进速度目前较快,ProsumerVIDEO CREATION EDITINGChatGPT●◆synthesiaB runwayVEED.IORewindMULTI-OND-IDMinion Alnew COMPUTERPIKA LABSdescriptIMAGE CREATION EDITINGperplexity米loomPrAdobePremiere ProVOICEFigmaYOUdream byTikTokGoogle BardWELLSAIDMURFAI3DG①PLAYGROUNDPlayHT coqui于descriptmirage●SplinePhysnaPicsort请阅读最后一页免责声明及信息拔露http:/www.cindasc.com6信达证券CINDA SECURITIES文」困生视频面临着众多方面的挑战,例如:1)计算成本:确保帧间空间和时间一致性会产生长期依赖性,从而带来高计算成本;2)峡乏高质量的数据集:用于文生视频的多模态数据集很少,而且通常数据集的标注很少,这使得学习复杂的运动语义很困难,文生视频模型霄要依赖于大量数据来掌握如何将文本描述转化为具有写实感的连续帧,并捕捉时间上的动态变化;3)视频生成质量:时空一致性难以保持,在不同镜头、场景或时间段内较难确保角色、物体和背景的一致性,可控性和确定性还未充分实现,确保所描述的运动、表现和场景元素能够精确控制和编辑,视频时长的限制,长视频制作仍面临时间一致性和完整性的挑战,这直接影响到实际应用的可行性;4)语义对齐:由于自然语言具有复杂性和多义性,文本语义理解、文本与视频元素的映射关系仍是挑战:5)产品曷用性:对于文生视频,产品的易用性和体验仍需改进,个人用户希望制作流程易上手、符合习惯,并支持快速素材搜索、多样模板、多端同步和一键分享;小B端用户关注成本可控下的快速营销视频制作和品牌传播效果;行业用户则需要内容与交互性的融合,包括商用素材适配性、快速审核和批量制作分发能力;6)合规,应用:文生视频的应用面临素材版权、隐私安全和伦理道德等风险,二、市场主流A!视频生成技术的迭代路径DM20162017202120242016年以前20162016年-2019年20202020年.至今Carl Vondrick Generating Videos with Scene Dynamics:Sergey Tulyakov MoCoGAN:Decomposing Motion and Contentfor Video Generation:Eiichi Matsumoto Temporal Generative Adversarial Nets with Singular Value Clipping:Aidan ClarkADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS:Chenfei Wu NUWA:Visual Synthesis Pre-training for NeuralJonathan Ho MAGEN VIDEO:HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS:Ruben Villegas PHENAKI:VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS:Uriel Singer MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA:ChenfeiWu NUWA-Infinity:Autoregressive over Autoregressive GenerationYu GENERA TING VIDEOS WITH DYNAMICS-AWARE IMPLICIT GENERATIVE ADVERSARIAL NETWORKS:Dan KondratyukVideoPoet:A Large Language Model for Zero-Shot Video Generation:Agrim Guptau Photorealistic Video Generation with DiffusionModels:Songwei Ge Preserve Your Own Correlation:A Noise Prior for Video Diffusion Models:Andreas Blattmann Align yourLatents:High-Resolution Video Synthesis with Latent Diffusion Models:Shengming Yin NUWA-XL:Diffusion over Diffusion for eXtremelyLong Video Generation》;Weimin Wang等MagicVideo-V2:Muli-Stage High-,Aesthetic Video Generation,》.Runway公司客网,信达证s研发中心请阅读最后一页免责声明及信息拔露htp:/wwww.cindasc.com信达证券CINDA SECURITIES生成视频质量Transformer+Diffusion ModeDiffusion ModelTransformerGAN+VAE早期Transformer路钱扩散模型路钱技术路径代表产品Text2FilterPhenaki.Cog Video.50a、快手可灵…Runway-Gen2,通义千问视频大模型1)GAN+VAE生成对抗网络(Generative Adversarial Networks)核心思想是训练两个网络,生成器(G)和判别器(D),生成器通过获取输入数据样本并尽可能对其进行修改来生成新数据,试图生成逼真的视频;而判别器尝试预测生成的数据输出是否属于原始数据集,尝试区分真实视频和生成的视频,两个网络通过对抗训练,生成器试图最大化欺骗判别器,而判别器则试图最大化识别生成视频的错误,直到预测网络不再能够区分假数据值和原始数据值,GAN用于视频生成在2016年至2021年较为火热,代表模型如Temporal Generative Adversarial Nets(TGAN)和MoCoGAN,它们通过不同的网络架构和训练方法来改进GAN在视频生成上的性能,此外,Dual VideoGeneratorFakeSampleGeneratorReaLossDiscriminatororRealFakeSampleRealDataLossGN技术特点如下:1)无需标注数据,可以从未标注的图像中学习生成新的图像或视频;2)多领域应用,可以应用于图像生成、风格迁移、数据增强、超分辨率等多种任务;3)模型灵活,通过改变网络结构,可以适应不同的数据分布和生成任务;4)模型参数小,较为轻便,擅长对单个或多个对象类进行建模,GN作为早期文生视频模型,存在如下缺点:1)训练过程不稳定,容易出现模式崩溃(mode collapse),即生成器开始生成非请阅读最后一页免责声明及信息披露http:www.cindasc..com8信达证券CINDA SECURITIES常相似或重复的样本;2)计算资源:训练GN通常需要大量的计算资源和时间;3)对超参数选择敏感,不同的设置可能导致训练结果差异很大,VAE(Variational Autoencoder变分自编码器):对于传统的基本自编码器来说,只能够对原始数据进行压缩,不具备生成能力,基本自编码器给定一张图片生成原始图片,从输入到输出都是确定的,没有任何随机的成分,生成器的初衷实际上是为了生成更多“全新”的数据,而不是为了生成与输入数据“更像”的数据,而变分自用编码器的Encoder与Decoder在数据流上并不是相连的,不会直接将Encoder编码后的结果传递给Decoder,.而是要使得隐式表示满足既定分布,因此,VE引入了隐变量推断,训练过程稳定,但是其生成的图片缺少细节,现数据的自动生成+高质量国像生成的结果。2)Transformer模型Transformer是一种先进的神经网络算法,它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN),Transformer保留了编码器-解码器的基本结构,编码器将输入序列映射到连续的表示空间,而解码器则基于这些表示生成输出序列,Transformer模型的自注意力机制,允许序列中的每个元素都与序列中的其他元素进行交互,从而捕捉全局依赖关系;模型还采用多头注意力并行处理,可获取不同空间的信息。Transformer模型技术特点如下:1)并行处理序列中的所有元素,这与传统循环神经网铬(RNN)相比,大大提高了计算效率;2)可扩展性,能够通过堆叠多个注意力层来增加模型的复杂度和容量;3)泛化能力,除了语型通常先在大量数据上进行预训练,再针对特定任务进行微调,使得模型能够快速适应新任务;5)适应长序列数据,在处理诸如语音信号、长时间序列数据等任务具有优势,避免传统模型存在的梯度消失或梯度爆炸问题,Transformer存在如下缺点:1)参数效率相对较低,参数数量随输入序列长度的增加而增加,增加了训练时间和成本;2)对输入数据的敏感性较高,模型依赖于输入数据的全局信息进行建模,在处理复杂任务时(如机器翻译、语音识别等),对输入数据的细微变化可能会对模型的输出结果产生较大影响;3)难以处理时空动态变化,模型时基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等县有动态变化特性的任务时,需要结合其他技术来提高模型的性能,Transformer模型在视频生成领域的应用的产品包括VideoGPT、NUWA、CogVideo、Phenaki等,这些模型通过结合视觉和语言信息,生成新的视频内容或对现有性能,此外,这些模型还探索了如何通过多模态学习来提高视频生成的质量和多样性。3)扩散模型扩散模型是一种生成模型,通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据,扩散模型分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)、随机微分方程(SDE),但三种数学框架背后逻辑统一,均为添加噪声后将其去除以生成新样本,请阅读最后一页免责声明及信息拔露htp:/wwww.cindasc.com9信达证券CINDA SECURITIESForward Diffusion ProcessX2XTDenoising UNetXTReverse Diffusion Process尽管Transformer在Autoregressive Model中得到广泛应用,但是这种来构在生成式模型中校少米用。比如,作为图像顺城生成模型的经典方法,Diffusion Models却一直使用基于卷积的U-Net架构作为骨千网络。随着Sora、WALT等基于(Diffusion+Transformer)的探康,国内创业公司如智向未来也在尝武延续这个最新的技术路线,用Transformer架构替换掉原来的卷积U-Net来构后,生成视频的时长可变、尺寸可变,可以在不同的空门进行建棋,同时也可以让视频和困片配对来实现多模态对齐与编码。4)DiT (Transformer+DiffusionDiffusion Transformer(DT)模型是从(Scalable Diffusion Models with Transformers,ICCV2023)中引入,基本上,Diffusion Transformer(DiT)是一个带有变换器(而非U-Net)的扩散模型,核心思想是利用Transformer处理潜在空间中的图像数据块,模拟数据的扩散过程以生成高质量的图像,W.A.L.T Window Attention Latent Transformer)Transformer)一一一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的Diffusion扩散模型,技术进代主要有两个方向:1)使用因果编码器在统一的潜在空间内联合压缩困像和视频,从而实现跨模态的训练和生成。2)为了提高内存和训蛛效率,团队使用了为联合空间和时空生成建棋量身定制的窗口注意架构。所以,无需使用无分类器指导,就能在成熟的视频(UCF-101和Kinetics-600)和图像(ImageNet)生成基准上实现最先进的性能,最后,团队还为文本到视频生成任务训练了三个模型的级联,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度生成512×896分辨率的视频,请阅读最后一页免责声明及信息拔露htp:/wwww.cindasc.com10信达证券CINDA SECURITIESJoint Causal 3D EncoderAttentionSpatial SelfAttentionSpatial Cross=v=concat os,t5_xl (text)WALT将图像和视频编码到共享潜在空间中,Transformer主千使用具有两层窗口限制注意力的块来处理这些潜在空间:空间层捕获困像和视频中的空间关系,而时空层通过身份注意力掩码模拟视频中的时间动态并传递图像,文本调节是通过空间交叉注意力完成的,DT模型技术特点如下:1)运用潜在扩散模型,在潜在空间而非像素空间中训练扩散模型,提高了计算效率;2)Patchify操作,将空间输入转换为一系列token,每个token代表图像中的一个小块;3)条件输入处理,DiT设计了不同的Transformer块变体来处理条件输入(如噪声时间步长、类别标签等);4)自适应层归一化(adaLN),使用adaLN来改善模型性能和计算效率;5)可扩展性:DT展示了随着模型大小和输入token数量的增加,模型性能(以FID衡量)得到提升;6)简化的架构选择,DT证明了在扩散模型中,传统的U-Nt架构并不是必DiT模型仍存在以下缺点:1)实现复杂性,虽然DT在理论上简化了架构选择,但Transformer的实现可能比U-Net更复杂;2)训练稳定性:尽管DT训练稳定,但Transformer架构可能需要特定的训练技巧来保持稳定;限制了它们在资源受限的环境中的应用;4)模型泛化能力,DT主要在ImageNet.数据集上进行了评估,其在其他类型的数据和任务上的泛化能力尚未得到验证,DT作为一种新型的扩散模型,通过在潜在空间中使用Transformer架构,实现了对图像生成任务的高效和高性能处理,DT在Sora上表现优秀,Sora是OpenAl发布的爆款视频生成模型,它融合了扩散模型的生成能力和Transformer架构的处理能力,受到大规模训练的大型语言模型的启发,Sora通过在互联网规模的数据上训练,获得了通用化的能力,它采用基于扩散模型的生成框架,逐步放进噪声样本以产生高保真度的视频输出,并应用Transformer架构来处理视频和田像的时空信息,保持物体在三维空间中的连贯性。这种结合生成和变换喜优势的方法,使得So阳在视频生成和编韩任务中表现出色,能够创造出多样化、高质量的视觉内容。信达证券CINDA SECURITIES表1:Transformer、Diffusion、DT模型的产品林理模型类型模型名称发布方发布时间使用VQ-VAE,并通过3D卷积和轴向自注意力机制实现。使用类似GPT的架构自回归VideoGPTWilson Yan et al.2021.4地对离散潜在表示进行建模。生成架构简单,能生成高保真度视频,尤其是适应动作条件视频。采用3D变换器编码器-解码器框架,提出3D近邻注意力机制简化计算,支持多模态预训微款亚洲研究院2021.11练,使用VQ-GAN视觉标记3 D tokens,其有零样本能力。在生成图像、视频以及视频预测方而表现优秀。采用多帧率层次化训练策略、双通道注意力机制,灵活文本条件模拟不同帧率视频,顺CogVideo清华大学2022.5序生成和递归插值框架使视频生成连贯。对复杂语义的运动理解加强,生成高分辨率、Transformer高帧率、高一致性的视频。采用双重自回归生成机制来处理可变尺寸的生成任务,引入NCP缓存已生成的相关NUWA-Infinity微软亚洲研究院2022.7patch来减少计算成本,采用任意方向控制器赋能图像扩展,能生成任意大小高分辨率图像、长时视频、图像动画。使用因果注意力机制生成可变长度视频,使PhenakiGoogle2022.10用预训练的T5以来生成文本嵌入,通过双向遮蔽Transformer根据文本嵌入生成视频请阅读最后一页免责声明及信息披露htp:www.cindasc.com12信达证券CINDA SECURITIEStoken,采用C-VWT编码-解码架构减少token数量并在时空一致性表现更好,仅采用解码器架构能处理多模态输入,支持零样本视颜生成;使用双向变换器在标记空VideopoetGoogle2023.12间内提高空间分辩率;通过自回归扩展内客来合成长达10秒的连贯视频;执行文本、图像、视频编辑到视频的多任务视频生成。使用因果编码器联合压缩图像和视频,实现跨模态生成;采用窗口注意力架构,联合空间和时空生成建模;不依赖分类器自由引导可生成视频;通过潜在视频扩散模型和视频WALTGoogle2023.12超分辨率扩散模型的级联,生成512×896分自然语言、过去帧、低分辨率视频生成可控视频。采用基础视频扩散模型和用于空间与时间超分辨率扩救模型,采用v-prediction参数化避免色彩偏移,应用渐进式蒸馏技术,快速高Imagen VideoGoogle2022.1效采样;使用噪声条件增强来减少级联模型中的城差距,提高样本质量;能生成各种艺术风格和3D对象理解的视频,具可控性和对世界知识的理解。从图像和视频数据联合训练减小批量梯度方差;引入条件采样技术,提高空间和时间视频扩展性能;使用特定类型的3DUNt作为扩散模型架构,使时间空间分解;采用因Google2022.4Model子化的空间时间注意力机制,能遮蔽模型以在独立图像上运行;使用多种扩散模型采样器;能处理多尺度和多帧视频数据,生成长序列视频。不需要成对的文本视频数据进行训练;通过无监督的视频素材学习世界的运动方式;构建在T2I模型之上,包括分解全时城UNetMake-A-VideoMeta2022.9和注意力张量,并在空间和时间上近似它们:设计空间时间管道,通过视频解码器、插值视频。使用3 D U-Net解码器简化计算;引入帧间轻量适配器,减少对独立2D卷积块的需求;字节跳动2022.11采用有向自注意力机制,仅基于所有先前帧计算未来帧的特征;提出VideoVAE自编码器,改善像素抖动问题;训练基于扩散的超信达证券CINDA SECURITIES分辨率模型,从256×256上采样到1024×1024的高分辨率。基于预训练的T2!扩散棋型,使用开放城知识;引入空间时间注意力机制来学习连续运Tune-A-Video新加坡国立大学,腾讯2022.12动;使用DDM反演,使生成视频时序一致;只更新注意力块中的投影矩阵而非所有参数,避免对新概念视频生成的阻碍。Diffusion将潜在扩散模型扩展到视频生成,通过将时Gen-1Runway2023.2间层引入到预训练的图像模型中并对图像和视频进行联合训练,无需额外训练和预处理。允许使用任意起始帧,通过2V方式生成视频;通过训练模型预测视频下一帧,对视觉Gen-2Runway2023.2世界深入理解;从单个帧的高保真度生成开始,逐步解决视频叙事中的挑战,包括场景、角色和环境的一致性。采用混合微调方法,结合全时序注意力和时序注意力掩蔽的微调;引入轻量级的帧间适DreamixGoogle2023.2配器,用于调整2V分布;采用有向自注意动画框架,转图像为粗糙视频进行编辑。能够直接在长视频上进行训练,并通过增加深度m来轻松扩展到更长的视频;“粗到细”NUWA-XL微软亚洲研究院2023.3阶段生成,先通过全局扩散模型生成关健帧,再用局部扩救模型递归填充邻近帧之间的内客;支持并行推理,提高长视频生成速度。Picsart Al Research.实现零样本学习:在生成帧代码注入运动动Text2Video-UT Austin,2023.3力学,能保持全局场景和背景的时间一致性;Zero使用新的跨帧注意力机制保留前景对象的上U of Oregon,UlUC下文、外观和身份。在潜在空间扩散模型中引入时间维度,将图像生成器转换为视频生成器,实现视频数据VideoLDMNVIDIA2023.4的时间对齐;在图像上预训练LDM,然后在编码的视频上微调生成视频;能够实现高达1280×2048分辨率的视频生成。提出视频扩散桑声先验,更好地捕捉视频帧之间的内在联系;采用一个由基础模型和三个上采样堆叠组成的级联网络架构;使用了PYoCo2023.5DEIS及其随机变体进行样本合成的先进采样技术;小规模模型实现优异性能,从文本嵌入生成高分辨率的视颜。请阅读最后一页免责声明及信息拔露htp:wwww.cindasc..coml4信达证券CINDA SECURITIES使用文本条件扩散模型,处理视频和图像的空间时间块:训练了一个网路来降低视觉数据的维度,输入原始视频并输出压缩的潜在DiTSora、可灵等OpenAl、.快手等2024.2表示;能够生成一分钟的高保真视频,能实现视频扩展、视频过波,输入视频的风格和环境的零样本转换。Chenfei Wu GODIVA:Generating Open-Domaln Videos from nAtural Descriptions.:Wilson Yan VideoGPT:Video Generation usingGENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS:Uriel Singer MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATIONWITHOUTTEXT-VIDEO DATA;Chenfei WuNUWA-Infinity:Autoregressive over Autoregressive Generation for Infinite Visual Synthesis:Wenyi Hong CogVideo:Large-scale Pretraining for Text-to-Video Generation via Transfommers:Sihyun Yu GENERATING VIDEOSWITH DYNAMICS-AWARE IMPLICIT GENERATIVE ADVERSARIAL NE TWORKS:Dan Kondratyuk VideoPoet:A Large Language Modelfor Zero-Shot Video Generation:Agrim Guptau Photorealistic Video Generation with Diffusion Models:Songwei Ge Preserve YourOwn Correlation:A Noise Prior for Video Diffusion Models:Andreas Blattmann Align your Latents:High-Resolution Video Synthesis withLatent Difusion Models:Shengming Yin NUWA-XL:Diffusion over Diffusion for eXtremely Long Video Generation:Weimin Wang二、目前海外市场主流的生成式AI+视频参与者A+视频发展以来,技术路径和迭代产品冗杂繁多、功能不一、效果差异,我们选取目前海内外市场主要的生成式视频的参与者:LumaAl(Dream Machine)、Runway(Gen1-2&Gen-3 Alpha)、Pika、Sora,集中梳理了其融资历程、产品迭代、核心功能、实测效果比较等多方面,经个别提示词生成视频效果测试,在S0「未公开实测情况下,我们认为Runway Gen-3 Alpha的视频生成效果,如质量分辨率、生成速度、物体符合物理规律、提示词理解、视频时长等诸多维度上表现均较为优秀,因9:2023年生成式A+视频时间表Generative AI Video Timeline-2023Q1Q2Q304Res@venturetwins请阅读最后一页免责声明及信息披露htp:/www.cindasc.com15
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取新人礼包

下载

便携运营智库

立即下载APP

工具

运营导航

工具推荐

帮助

帮助中心

常见问题

分销

50%直推收益

30%间推分成

AI

智能对话

办公助手

顶部