李开复：大模型价格战是“双输”的打法

在LMSYS盲测竞技场最新排名中，零一万物的Yi-Large总榜排名世界模型第7。

伍洋宇 · 来源：界面新闻

图片来源：匡达

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

时隔一周，零一万物再次更新其千亿参数闭源大模型Yi-Large的动态，这次是榜单成绩。

5月21日，零一万物表示，在LMSYS盲测竞技场最新排名中，Yi-Large总榜排名世界模型第7。在总榜上，GPT系列占了前十中的四位，以机构排序，零一万物位于OpenAI，Google和Anthropic之后。

此外，其中文分榜排名与GPT4o并列第一（严格来说分数更低一些），编程能力（Coding）和长提问（Long query）位列第二。

LMSYS Org是一个针对大型语言模型（LLMs）的研究组织，其发布的大语言模型评估排行榜也被称为大模型匿名竞技场。榜单会让大量用户输入问题，并由不同模型生成回答，用户在不知道模型与答案对应关系的情况下根据答案质量进行投票，从而对模型进行评估。

此次刷新的“Chatbot Arena”是LMSYS排行榜的主要基准之一，使用Elo评级方法（一项基于统计学原理的评价体系）进行计算结果，这一场全球用户投票数超过1170万。

这次成绩之所以被零一万物重视，一方面是因为它是国内大模型领域唯一进入前十的公司（智谱GLM4、阿里Qwen Max、Qwen 1.5也参与了这次盲测），但客观来看，它不能完全验证自己是国内第一的说法，因为国内参赛选手仅有三家。

另一方面在于排在Yi-Large前面的大模型都是万亿参数级别，而Yi-Large以千亿参数量级达成了相近的表现。“如果我们有10倍GPU，我们的万亿模型完全可以达到第一名。”零一万物创始人兼CEO李开复表示。

事实上，大模型曾因刷榜乱象广受争议，大量榜单由于题目缺乏动态性、可针对性刷题等问题，已经丧失了一部分公信力。对此，零一万物模型负责人黄文灏表示，团队之所以强调LMSYS的排名价值，是因为看重其题目动态随机、基于用户打分等机制带来的客观性。

而关于用户输出的“prompt”（提示词）在专业水平上是否不如专业评测集，黄文灏的理解是，一方面，盲测竞技场的方式更贴近用户真实使用场景，这是其主要价值所在；另一方面，LMSYS也有“hard prompt”部分，这一板块对于模型智力其实提出了很高挑战。

除去榜单本身传递出来的技术信息，这背后还呈现出中美大模型领域差距等更宏大长远的议题。

李开复表示，团队尊重美国在科技领域的创造性，但后发有后发的优势。“中国人的聪明、勤奋、努力是不容忽视的。”他指出，零一万物用一年时间把过去几年的技术差距缩短到目前的6个月（在榜单上超过了6个月前更新的海外大模型），“6个月的差别我觉得不是很大，这是以一个不可思议的超级速度在追赶。”

在追赶问题上，李开复多次提到了算力局限问题，但算力对模型发展的限制客观存在，当世界第一梯队已经处于领先位置，并且拥有更深厚的资源，国内大模型公司可以采取什么战术？

在李开复看来，这件事本质上可以分为两个方向，一是“把一张GPU挤出更多的价值”（主要指提高MFU，模型FLOPs利用率），二是优化模型表现，这涉及数据配比、如何引入多模态等技术细节，“我觉得我们在这方面是不输于美国。”他说。

对于行业趋势，零一万物绕不开的就是当前已经开展的B端（企业端）服务“价格战”。

此前，李开复明确表示，不应在行业内按照ofo的烧钱打法重蹈覆辙。但接连几日以来，字节跳动旗下豆包大模型宣布降价，其通用模型pro-32k的推理输入价格仅为0.0008元/千Tokens，比行业便宜近一半；随即，阿里云通义千问主力模型Qwen-Long的API输入价格直降97%降至0.0005元/千Tokens；百度文心大模型也宣布两款主力模型ENIRE Speed和ENIRE Lite免费。

李开复表示已经关注到这一现象，但他认为零一万物目前定价合理，且团队也在花很大精力进行降价。“行业每年降低10倍推理成本是可以期待的，而且也应该是必然发生的。”他说。

但他坚持认为价格战是一个“双输”的打法，大模型公司不会这样不理智。当他认定自己的技术值得的时候，就会坚持一个合适的价格，而绝不会靠贴钱、赔钱去做生意。

“如果你再问，以后可能中国就是这么卷，大家宁可赔光通输也不让你赢，那我们就走外国市场。”李开复表示。

未经正式授权严禁转载本文，侵权必究。