文|新莓daybreak 史圣园
编辑|翟文婷
百度高调发布文心大模型4.0,再次将人们的目光聚焦在生成式AI。
李彦宏的说法是,与GPT4相比,文心 4.0的综合水平已经毫不逊色,理解、生成、逻辑和记忆四大能力,都有明显提升。
基础模型的能力决定着AI 原生应用的可能性。
AI 时代,搭建应用的技术成本显著降低,最重要的还是找到「场景」。未来将有大量的大模型应用井喷,已成为行业内、投资圈的共识。问题在于,什么时候才能产生真正意义上的AI爆款应用?
百度的解题方法是,一方面押注自己,将既有产品线用 AI重构;另一方面也将筹码均匀分布到「生态」。百度智能云应用商店、灵境插件平台,试图搭建 AI 时代的 App Store,扩大命中「杀手级应用」的概率。
问题是,百度如何才能避免让这种热情沦为一厢情愿呢?
毕竟现实是,C端用户使用AI应用的频次并不高,找不到打开AI的正确方式;B端客户采买的决策链路复杂漫长,同时担心数据安全。这个行业症结,百度是否有正确解法?
喊话 GPT 4
学界普遍认为,参数规模越大,模型的通用能力越强。
此次发布会上,李彦宏没有提及文心大模型 4.0 的参数规模,而是着重展现了贴合生活场景的模型能力。据《晚点 LatePost》报道,该版本参数规模或达到万亿级别。
李彦宏依次展示了文心大模型的四大能力:
·理解能力,他用公积金异地贷款为例,展示文心 4.0 对于前后乱序、表述模糊、潜台词洞察的能力。
·生成能力,让大模型根据需求,生成一整套汽车的营销素材,包括文案、海报、视频等多模态内容。
·逻辑能力,举例的场景是家长辅导功课,文心一言给孩子讲解数学题,包括解题思路、计算过程,以及知识点的延伸。
·记忆能力则是通过小说创作的案例,不断补充人物关系、戏剧冲突等细节,展示大模型在多轮对话中的记忆力。
值得一提的是,这四个场景均跟生活和工作中的「生产力」相关,强调切实的信息价值,弱化了休闲娱乐场景的陪伴、互动能力。看起来,文心一言的定位更像是一个「万金油」助手。
主动发出这样的信号,或许说明百度对模型能力有着更高的要求,想要积累更多的高质量用户数据。大模型的幻觉、行业知识的缺乏,是其广泛落地的最大障碍。
娱乐场景的闲聊,虽然门槛低、有趣、易传播,更容易积累大量的语料,单个用户就能在一天中聊几百个来回,但这些数据对底层模型的知识提升较为有限。而行业用户所提出的问题、给出的反馈,才能真的让大模型更懂业务场景。
新莓 daybreak 选取了一个注册会计师考试题目,来实际测试文心 4.0和 GPT-4 目前的能力。该题目的计算过程,涉及 4 个解题步骤。
很遗憾,中外两款大模型都未能正确回答,但均给出了解题思路。目前线上版本的文心一言依靠文心3.5模型,在第一步就出现了计算错误;而文心 4.0 和GPT-4 均是在第三步出现了计算错误。由此看来,各家大模型的推理能力均有待加强。
CPA考题,各家大模型均计算错误
当我们提示「计算步骤中是否出现数据错误」时,GPT-4 修正了数据错误,并给出了正确回答;而文心3.5、4.0 均开启了另一个话题,试图说明「数据计算出现错误」是什么原因,虽然文心4.0的解释更翔实,但它并未能理解这句指示的真正意图。GPT-4的上下文记忆和理解能力,目前略胜一筹。
GPT4 在用户提示下修正了错误
以上测试,均是在未经微调的通用应用上进行的测试。在实际应用时,往往需要用业务数据对模型进行微调;然而,通用大模型在某个特定任务上的能力上升,可能会伴随着其他场景上的能力下降。因此,针对不同的领域任务,推出不同的微调接口,对于实际应用尤为重要。
一些企业客户已经开始接入文心4.0体验测试,某金融机构的IT部门告诉新莓daybreak,4.0版本的知识问答能力比之前有较大的提升。
AI重构应用
「没有构建于基础模型之上的丰富的 AI 原生应用,大模型就一文不值。」李彦宏说。他认为,AI 原生应用就是基于大模型的理解、生成、逻辑和记忆能力开发出来的应用。
此前,李彦宏曾从更感性的角度给出 AI 原生应用的定义。除了以上四点技术能力外,还需要满足两个条件:能用自然语言交互、每个功能不超过两级菜单。
换言之,AI 原生应用,应该是简单、直觉、轻量的。
改革先从自家的产品做起,百度搜索、网盘、文库、地图、智能办公(如流)、输入法等全线产品,都进行了 AI 化改造。
先来看搜索。百度曾靠搜索起家,后来知乎、微博、小红书、B站,纷纷抢占了用户的搜索时间。
早在2年前,抖音的搜索月活达5.5亿次+,快手搜索月活达3亿次+,单日视频搜索量达2.5亿次+;截至2023年2月,小红书日均搜索查询量达3亿次。比起各类社交媒体上的专业领域KOL,百家号、贴吧构筑的内容池,显得吸引力不足。另一方面,仅能命中文本关键词的搜索形式,无法很好地搜索图片、视频等内容,已经无法满足多元的搜索需求。
这一次,百度搜索想借助 AI 变得更懂用户。李彦宏介绍,「新搜索不再是给你一堆链接,而是通过大模型去理解,生成一个最好的答案。」他将新搜索的特点归纳为「极致满足、推荐激发、多轮交互」。
用大白话说,搜索引擎不再只是按照你输入的关键词搜内容,而是跟你聊天,并将结果整理成更易懂、易用的通俗语言。如果「对话」是搜索未来的产品形态,那么被颠覆的不仅是用户体验,还有搜索引擎的商业模式。
AI 搜索,不再是搬运内容,而是在创造内容。
如果当 AI 的创造包含广告的成分,且不加以区分,那么用户将无法信任搜索的结果。如果限制商业行为对AI回复的干扰,那么竞价排名的广告收入势必会受影响。目前,线上使用的百度搜索仍然是老版本,只是多了一个唤起 AI 助手的入口。
百度文库、百度网盘也纷纷在各自的界面上加入了 AI 助手。网盘助手和文库助手都可以帮助用户总结内容、提炼要点。功能都是好功能,但放在一起,不免让人觉得,各条产品线的 AI 助手大同小异。
让人眼前一亮的是 AI 版输入法。百度输入法的 AI 功能叫「超会写」,主打「让你社交沟通不再精神内耗」,洞察到了一个刚需、高频、且对生成文案容错率较高的场景。但目前,点击输入栏的按钮唤起AI的交互,还是略显刻意。AI功能和输入法的融合,微信输入法更润物细无声,将输入本身变成召唤术:在输入文字后,自动联想到优化表达、唤起音乐等贴合场景的需求。
微信输入法的AI唤醒方式更加自然
百度 AI 原生应用商店也一并上线,截止 10 月 22 日,共有 55 款应用。生态中的智能应用,集中在智能客服、AI辅助写作、专业知识问答等几个场景,和百度自有产品线的应用场景高度重合,但多了一些行业属性。
如何先用起来
阻碍 B 端用户应用大模型的,主要是成本和预期的问题。无论规模,企业们都非常看重数据的私密性。
Cathy 是一家大模型公司的解决方案工程师,她说,即使是云端私有化的方式,一些客户还是感到不安。「客户最开始试验的,都是一些对数据安全要求不太严格的功能。但如果后续想要一些深度功能,就纷纷都要求私有化了。」
但如果要将大模型做私有化部署,价格往往需要几千万元,整个决策链路就要被无限拉长。
David 所在的创业科技公司长期服务企业客户。不仅是他们,客户公司的部门领导也更喜欢短平快、立竿见影的小项目,让自己的部门先做起来。「大型机构的招投标,如果从部门上升到整个公司层面,就会变得极其复杂。」
「客户的需求都比较理想化,他们都希望用稍微小一点的模型,最好可以私有化部署,然后还能达到很好的效果。」David 说,经过他们测试,如果企业内部的数据质量足够高,在 6B、13B 的小参数模型上进行特定任务训练,也能达到相对理想的效果。
David还补充道,「不仅仅是私有化的成本,单次推理的成本也会更低,速度还会更快。我的亲身体会是,小参数的模型,客户接受起来更容易一些。」
而对于大多数 C 端用户来说,真正使用 AI 的频次并不高。一些 AI 应用的定价从侧面证实,用户订阅 AI 服务颇有点冲动消费的意味。「为 AI 付费,感觉像是办了个健身房的年卡会员,是在消费一种『我会更加高效』的感觉。」
海外用户量较大的两款文档处理类 AI 工具,ChatPDF 和 PDF.ai,都将月度会员的权益放大到几乎「无限次使用」,再收取十几美元的价格。
这两款产品都出自个人开发者之手,他们没有赔本赚吆喝的必要。从实际使用情况来看,很少有用户高频使用,十几美元就足够覆盖用户消耗的成本。用户使用程度不够深入,或许也说明,AI 现有的能力,并没有达到用户的期待。
但也不是绝对的。程序员是为数不多认真在使用 AI 产品的人群。
GitHub Copilot 的售价也是每月10美元,华尔街日报却报道称,平均每位付费用户每月给微软带来了20 美元的亏损。从另一个角度看,微软每月用 20 美元的价格,雇佣了一个认真的用户,提供高质量的数据帮他们训练 AI。
人人都知道下一个机会在应用层,可是找准场景、利用 AI 丝滑地升级现有产品,又谈何容易。
企业用户还在担心数据安全,大量个人用户找不到 AI 的正确打开方式。大模型想要兑现商业价值,似乎长路漫漫。
而百度的抢跑似乎在告诉我们,快人一步,至少意味着更多空间和可能。
评论