2024年2月19日,OpenAI最新推出的文生视频大模型Sora引发市场热议,在资本市场受到追捧,多模态AI相关指数概念大涨,近两日涨幅超15%。
据不完全统计,目前国内已经有多家A股上市公司在之前已经宣布布局了多模态大模型和对AI视频进行相关研发。
据了解,海康威视在去年4月20日回复投资者提问时表示,公司已经进行了多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。
大华股份在2023年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。并在1月15日互动问答中表示,公司多模态融合的行业视觉大模型面向以视觉为核心的智慧物联领域,通过融合图像、点云、文本、语音等多模态数据所搭建的,大幅提升了视觉解析能力,该模型为解析式大模型。
博汇科技在1月9日互动问答平台中表示,公司通过运用人工智能、大数据等技术,对采集到的数据进行分析、特征学习和样本训练,构建智慧监管模型,提升了对文本、图片、音频、视频等多模态数据的处理分析能力。
易点天下2月4日在互动问答平台表示,公司旗下AIGC创作平台KreadoAI可以帮助企业实现从脚本撰写、语音克隆、个性化数字人选择到输出口播视频的内容生产AI化全链路闭环。
因赛集团2023年12月25日在互动平台表示,公司InsightGPT具备文生文、视频智能剪辑、图生视频等功能,目前正在开发文生视频功能。
中泰证券研报指出,跨时代文生视频模型,有望推动硬件需求进一步提升。Sora基于图片做长视频生成,再基于生成视频做extend,其所需token(文本处理最小单位)数量相较于文本及图片模型的推理,有望成数量级增长,判断Sora将刺激推理算力需求将持续上升。此外,推理端token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。
国金证券认为,Sora模型本质是基于DiffusionTransformer结构实现的,其中的Diffusion结构能够通过对图片加入噪声进行学习并进一步去除噪声的方式来实习图片生成的功能。与文本Condition的结合能够使模型得到文生图的效果。而Sora所用Diffusion是基于Transformer架构来实现的,该架构在Patchify层将图像切分成多个patches,转换为序列后作为Transformer的输入,后续再叠加Decoder部分预测噪声实现Diffusion过程,得到一个清晰的视频帧。该模型的出现除了能够利好图像创作、视频创意等领域外,同样能够在分析师的路演、电话会议,基金经理的路演、投资者宣导等工作中发挥其优异的视频表达效果,从而给受众更好的视听体验,帮助解放投研工作的生产力。
评论