文 | DoNews 李信马
刚刚过去的“618”,火了一群“AI主播”。
直接看战报吧,2024年“618”期间,京东直播订单量同比增长超200%。其中,京东云言犀数字人:
- 在超过5000个品牌直播间开播;
- 累计时长超过40万小时;
- 累计观看人次超过1亿;
- 互动频次超过500万次。
按照京东的统计,截至目前,言犀数字人已累计带动了超百亿的GMV(商品交易总额)。这个数字,放在今天的直播带货行业,实在不算个大数字。
据艾瑞咨询刚刚发布的《2023年中国直播电商行业研究报告》显示,2023年,我国直播电商市场规模高达4.9万亿人民币,增速达到35.2%,并预测未来三年还将保持18%的年复合增长率。100亿,甚至比不过头部达人的年度GMV。
不过,对京东来说,这算是很不错的成绩。在直播带货赛道如火如荼之际,老牌电商平台京东却掉了队,谈到直播带货达人,淘宝有李佳琦,抖音有疯狂小杨哥、罗永浩,快手有辛巴,而京东却让人想不到有可以相提并论的。
虽然近一年来,京东没少花心思做直播,但培养头部达人并不是个容易速成的事情。山不转水转,用AI数字人主播代替真人主播,成为一种“弯道超车”的选择。
从京东“618”战报来看,AI主播也算是小有成绩。只是,这样的成绩会是昙花一现,还是真的能走出一条通天大路?
一、日不落的直播间
前几天,“钟薛高老林”直播间发生了惊魂一幕,女主播在介绍产品时,突然身体开始摇晃,然后猛然摔倒,伴随着直播间里的尖叫声,话题也冲上热搜第一。
好在虚惊一场,女主播表示只是身体不适。不过,就此事而言,却体现了AI主播相比真人主播的优势之一:不会疲惫,也不需要休息。
DoNews联系了一位资深带货主播嘉琪,在我们和她讨论AI主播时,她的第一反应是,有了AI主播,直播间就可以“日不落”了。
“直播带货最少一个主播一个助播,还要有人投流,也就上班时间能凑一起,至于达人,更不可能一直播。”嘉琪目前每周单休一天,工作日每天直播4小时。而她所在的公司,同一个直播间会由三名主播早中晚三班轮班,一天播满12小时。
每天24小时,嘉琪所在的直播间只播一半,主要问题就是剩下的时间能够赚钱,但性价比不高。比如她们的最后一班是晚上7点半结束,之后到11点半的4小时,直播带货的效果不一定比白天好,但成本和麻烦程度只高不低,因此就被公司放弃了。
按嘉琪估计,她们直播间平均每天GMV在4万元左右,投流的成本大约是1万元,而主播的工资是200元每小时。“每个平台的投流不太一样,比如小红书是点进来(直播间)一次我们要给2块多,抖音是另一套规则,它们投流很细。”
因此,流量高的黄金时段,要直播而且要多投流;流量低的闲时,投流没意义,纯自然流量可能连人力成本都覆盖不了,就没必要直播了。
至于200元/小时的收入水平,在北京的直播带货圈子里算中等偏上,嘉琪介绍,不同平台、不同品类的直播间主播的收入水平会有所差异,此外还会有不同比例的提成点,“像是服饰类,提成可能在2%-5%,但像粮油这样的,可能就只有千分之几了。”
能有这样的待遇,是因为直播带货的确有其门槛,她们直播间表现最好的一天,GMV达到了25万,投流成本不到3万,除了运气和产品销售策略,主播的个人能力影响很大。
而且这也是“体力活”。“一场直播下来,可能就休息几分钟,去上一次洗手间,每天4小时感觉不多,但持续播一段时间就会很疲惫,嗓子也会难受。”嘉琪差不多一个月会请假一两次来休息,不请假的话“卷”两个月,她就要休息一个小长假才能恢复过来。
相比真人,AI主播的成本非常低廉,闲时也可以一直在线。比如京东,就表示言犀数字人直播成本仅为真人1/10,在今年4月,百度发布了曦灵数字人,采访中百度智能云副总裁喻友平也对DoNews表示,在不投流的情况下,6小时直播比对中,数字人的成本大概是真人的15%左右,GMV则是真人85%。
京东对使用数字人直播有三个阶段的目标,其中第一阶段是向真人看齐,可以和真人接力,在黄金时段之外带货。有AI主播做闲时补充,直播间可以24小时日不落,比如联想的京东直播间,据统计AI主播的每小时成交量,能达到真人的45%,成本只有10%;珠宝品牌潮宏基的AI主播平均每天播22小时,每月比真人10小时直播能省下两三万。
只是,如果AI主播止步于降本,那就不值得讨论了,因为直播带货行业还是销售为王。而从今年京东“618”来看,AI主播表现出来了更大的潜力——也许真的可以替代真人。
二、AI主播是怎样炼成的?
AI主播并不是新鲜事,2022年起,言犀虚拟主播就在青蛙王子、六神、同仁堂、百雀羚等上百家国货品牌直播间上岗,在去年的“618”,京东曾发布消息“开门红开启10分钟,言犀虚拟主播开播商家较去年11.11增幅近4倍”。
但以前没火起来,本质还是太“菜”了,完全比不上真人。
在百度发布曦灵数字人时,喻友平的描述就很谦虚:“未来要覆盖到更多原本都没有能力做直播的商家或者企业,让他们能够低成本的把直播用起来。虽然客观来说,肯定没法代替那些顶级的直播,没法达到他们那么高的水平,但是达到70%的水平,或者说我们随便找10个素人出来,肯定比他们水平高。”
而同一时间,京东却选择挑战高难度。在4月16日,京东直接做出了刘强东的AI数字人“采销东哥”,并亮相直播间开启了首场直播卖货。
直接上“老板”卖货,有魄力也很好玩,看一下销售数据:在42分钟的上播时间里,“东哥”讲解了13款产品(主要是家电),直播间的观看数量超过了2000万,创下了京东超市采销直播间开播以来观看人数的最高峰,最终订单数突破了10万,销售额超过了5000万元。
DoNews当时也特意观看了这场直播,说实话,前面一小段时间,真的没分辨出是不是真人,不止是长得像,一口宿迁味的普通话也颇具迷惑性。(也有原因是一开始的消息“京东创始人、董事局主席刘强东即将在京东APP上开启直播”中没有说是AI主播)看了一会,才隐约觉得表情和微动作有些重复和不自然。而多久能分辨出来是否是真人,就是京东对AI主播进行效果评判的核心指标。
京东云言犀负责人在第一次直播后的采访中说:“观众在进入直播间的前120秒,如果不觉得是数字人,就有可能跨过‘恐怖谷’效应,对主播产生信任感。这能大幅提高下单率。”
一旦跨越了这条鸿沟,AI主播就可以进入京东预期的第二阶段:媲美真人,能够承担一些重要独立的任务,比如重要时段的直播、讲解等。以“采销东哥”为起点,“618”的京东直播间里,冒出了不少“AI老板”,有格力董明珠、海信胡剑涌、LG李东善、名创优品叶国富、洁丽雅石展承等十几位企业总裁,也算是赶上了雷军、周鸿祎等商界大佬直播的热潮。
能达到这样的效果,不得不说,要感谢人工智能尤其是大模型技术的突飞猛进,我们现在管训练大模型叫炼丹,那京东的AI主播,就是主打一个“菜就多炼”。简单的说下,京东言犀数字人背后的技术。
建立数字人形象,主要分为外观和声音两部分。以“采销东哥”为例,在外观部分,言犀团队利用刘强东的高清视频,配合 3D Mesh 技术方案,快速建立拟真的真人形象,并支持数字人做出大姿态、有感染力的动作,比如挥舞手臂,或者侧脸看手机。简单理解,就是专精人物视频生成的“Sora”。
在声音方面,言犀团队设计了声音供应链的概念,从开始供应声音最基础的元素上进行规范,制定标准,后面技术进行相应的适配。模型在预训练中已经掌握了人类普遍的发声特征,再录制几句刘强东讲话,就能学习到他“宿迁普通话”的说话风格。直播中一句东哥特色的“兄弟们”,谁听了不迷糊?
三、畅想:未来的AI主播会是怎样?
以假乱真是很厉害,但大家看直播,不只是为了看“真实”。
除了折扣外,消费者也喜欢看主播们唱跳Rap,最好再给家人们上上才艺整整花活儿。眼下AI主播们的风头,其实是借着商界大佬们的形象,颇有些“狐假虎威”的意思,绝大多数人一辈子也听不到刘强东面对面喊自己一声“兄弟”,更不用说给介绍下商品了。
另一方面,由于多种原因,直播带货行业正由达人带货向店播的模式倾斜,再加上最近流行“一把手”出镜(但有时间和能力的企业家并不多),因此,京东带头发起的““总裁数字人直播”可以说搔到了不少企业的痒处。
等新鲜感过去后,AI主播还能吸引消费者们观看和购买吗?毕竟,目前的AI主播,只能在直播间里说话做表情,并不具备真正人类的行动力。反观真人直播带货还在不断的推陈出新,比如 ZARA 在去年年底的一场直播,请来了超模游天翼现场走秀。
空间挑高近8米,面积达500平,有5台阿莱摄影机和3台斯坦尼康等顶尖设备,再加上轨道车与机械摇臂,12盏阿莱400W聚光灯,这样超豪华的配置,营造出了至少价值50万的光影效果。长达约5小时的直播里,镜头全程跟踪超模与两位主播,从T台走秀到介绍产品、分享时尚见解,甚至补妆的小细节也毫无保留地展示出来,这样的视觉盛宴,吸引了近122万的观众。
这样的直播,现在的AI主播显然做不到。
同样是在4月时,DoNews采访了虚拟动点董事长刘耀东,虚拟动点专注于空间计算技术,他们的一大业务是做电影动作特效。刘耀东提到一个观点,现在的视频生成技术,包括Sora,都“不懂物理世界”。不懂物理世界的结果,就是生成的视频,会发生“穿模”的问题。而问题的原因,是因为我们日常看的视频、电影,本质上就是二维图像的堆叠,所以大模型在训练时,获得的数据也是加上时间轴的二维图像集,这样生成的视频其实也是图像的组合罢了。
“你会发现,所有电商(AI主播)直播的场景,(AI)主播是不能动的,它只能同轴位移,就是手可以动,表情可以动,但身体不能动。为什么它不能离开这个轴?因为它是拿视频训出来的,就是一个人坐在那里,拍足够多的视频来训练这个AI,然后再用口型和声音数据同步训练它的表情。它如果大幅度移动的话,就会发生明显的抖动等其他问题。”刘耀东解释道。
如果AI主播一直在画面正中间,那问题不大,但除此之外——比如只是简单的站起来——那问题都很大。虚拟动点同样通过大模型训练数字人,但他们采集的空间数据是三维的,和视频数据的区别大概相当于(x,y,z,T)和(x,y,T),这样从根本上解决大模型“不懂物理世界”的问题,而刘耀东理想中的AI主播,可以站起来,可以走动、做日常动作,甚至可以做物理交互。
“我觉得如果真的要实现到理想中的电商直播场景,那一定要有同步的一套AI算法,加上我们动作的算法,进行重新组合,完成数字人的驱动,它肯定不会是一个二维数字人。”刘耀东总结道。
不过,这样灵活的AI主播距离我们还有些遥远,真人主播为主、AI主播为辅,两者共存的模式未来将在电商直播领域长期存在,并且行业仍充满了机会,用真金白银奖励技术和模式上的突破。
畅想一下,未来可能就是《头号玩家》或者《失控玩家》里的场景。可能有一天,科技已经进步到构建出电影里的虚拟世界,也许真人主播不会消失,但AI主播却可以飞天遁地,不再需要模仿真人,就能完成令我们惊叹的表演了。
评论