喜马拉雅公布过一则数据,其用单田芳AI合成音制作的TTS(语音合成)专辑总播放量已经破亿。这一数据,喻示着在喜马拉雅“UGC+PGC+PUGC”内容生态之外,又多了一个AIGC的内容生态。
事实上,音频行业其实一直存在着许多问题,比如单个创作者创作形式单一、生产周期长、内容成本高等等。而为了突破这些问题,音频行业一直也都在做各种尝试。比如,喜马拉雅最近上线了喜韵音坊创作者平台,试图用AI为创作者赋能的方式,以技术手段来解决行业沉疴。恰好也是今年,喜马拉雅的两项智能语音技术相关论文被2022年国际音频、语音与信号处理会议(ICASSP)收录。
喜马拉雅创始人兼CEO余建军之前也提过,喜马拉雅是一家科技驱动的内容公司,科技是手段,文化是目的。那么,在这次喜马拉雅以通过科技赋能文化的过程中,又是如何改变音频行业的呢?配音小说用AI工具一天更新上百集“以前从来没有想过,音频节目可以一天更新上百集。”这是喜马拉雅的音频主播“CV千索”用过喜韵音坊之后的感叹。
喜韵音坊是喜马拉雅上的一个创作者平台,它通过TTS技术帮助主播实现与AI共同创作音频节目。“CV千索”就是通过这项技术在喜马拉雅上创作了有声书《史上最强捡漏王》,上线一个多月,播放量已经超过300万。工欲善其事必先利其器,创作者有了AI工具,就可以大幅提升创作效率,进而提升收益。
但要打造一个好工具也并非易事,喜韵音坊对于喜马拉雅来说,就如同剪映之于抖音,但音频制作本身又有不同的技术难点。“TTS”是将输入的文本转换为语音的技术统称,在许多场景中都有应用。但在不少场景中,比如在电话客服、机器人等身上,经常会有冷冰冰的“机器音”让人非常“出戏”。但在音频节目中,我们需要声音有情绪、有温度:听童话故事的时候,声音俏皮可爱;讲军旅故事的声音,铿锵有力;听历史故事,又需要它深沉雄浑。
喜马拉雅智能语音实验室自主设计了单独的韵律提取模块,并将其融入到HiTTS技术框架中。而针对单老评书中区别于标准普通话的发音,团队还设计了口音模块对这些特殊发音进行标注,使得AI合成音能够原汁原味地还原出老味道。由于技术上的创新,喜马拉雅用TTS合成语音所制作的AIGC专辑几乎能够以假乱真。
如今,喜马拉雅多情感、多风格、多语种声音的TTS技术模型已经广泛被运用于评书、新闻、小说、财经等多种类型AIGC内容的制作中。
评论