扫一扫下载界面新闻APP

谷歌

Ilya离开OpenAl，谷歌一口气拿出十余款新品也难出风头？

每一次发布会似乎都成了一场无声的较量。

经纬创投 ·

文|经纬创投

顶着压力开发布会是一种什么样的体验？

「代表谷歌为开发者提供所有服务」的谷歌I/O来到第16年。去年的I/O带来了Gemini，今年带有火药味的发布会则更加值得期待。被竞争对手忌惮已久的谷歌，能否超越前一天刚刚截胡发布的ChatGPT-4o？

发布会现场，谷歌带来了可以实时理解镜头世界的多模态Agent助手Astra、搜索业务来了一次彻底的AI化改造、Gemini系列模型卷起了长文本、效果超过Sora的视觉模型Veo……谷歌一口气拿出来十余款AI新品，势必要挣回这口气。

但就连llya也来抢谷歌风头。凌晨，OpenAI首席科学家Ilya Sutskever在X发布自己离开OpenAI消息，称“我决定离开 OpenAl。再见，感谢你们所做的一切。我很期待接下来的计划--这个项目对我个人来说意义重大，我会在适当的时候分享细节。”

谷歌的反抗只是一个序幕，硅谷将进入竞争异常激烈的AI月。在这之后，微软2024Build年度大会、英伟达季度财报、苹果2024年度开发者大会陆续到场，这个“AI月”注定不一般。那么，高强度下的硅谷，“不（强迫）加班文化”现状如何？各家巨头都打的什么算盘？有哪些发布值得期待？以下，Enjoy：

01 Google I/O 带来哪些新花样？

前一天OpenAI用GPT-4o吸引了全世界的眼球，Google要在今年的Google I/O上拿出什么样的产品翻盘呢？

Gemini模型家族

关于Gemini的具体信息，是由Deepmind的CEO Demis Hassabis上台介绍。这也是这位传奇人物第一次Google I/O演讲。

谷歌宣布Gemini 1.5 Pro升级到200万tokens，并全面支持Workspace，同时Gemini 1.5 Pro将面向全球开发者开放。新版本长度再次刷新，达到200万tokens。

除了能生成创意文本、代码外，Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结。谷歌同时面向开发者推出支持200 万 tokens的 Gemini 1.5 Pro 模型的预览，并表示最终的目标将是 " 无限上下文 "。

关于大模型 API 的最新定价，其中 Gemini 1.5 Pro 定价为 7 美元 /100 万 Tokens，12.8K 上下文窗口的版本定价为 3.5 美元 /100 万 Tokens；而 Gemini 1.5 的起售价为 0.35 美元 /100 万 Tokens。

此次推出的Gemini 家族的新成员，则是针对端侧的模型Gemini 1.5 flash，同样有100万和200万token的版本。哈萨比斯曾说，谷歌之所以创建 Gemini 1.5 Flash，是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。

谷歌展示的" 未来的人工智能助手 "，也是被OpenAI狙击的项目——"Astra" ，可以通过用户打开的摄像头识别物体，与用户实时语音交互。

哈萨比斯表示，这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西，这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导，以及自然、无延迟地进行交流。在演示视频中，谷歌的 AI 助手能够通过摄像头视频，识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。

演示视频中，官方还展示了Astra与AR眼镜相结合的效果。戴上眼镜后，Astra的回答会实时显示在眼前，比如帮助修改白板上的流程图时，会用箭头指出修改位置。

此外，谷歌还发布了开源模型Gemma 的2.0版本，270亿参数。并为它拓展了PaliGemma这个多模态版本。

多模态生成模型

面对OpenAI的围猎，Google针对Sora发布了一款全新的视觉模型Voe。谷歌还表示，Veo 具有对自然语言和视觉语义的高级理解能力，能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。Veo甚至还能理解电影术语，如“延时”或“航拍镜头”。

用户仅需写出文本提示即可生成视频，比如文本提示："一艘宇宙飞船在浩瀚的太空中穿梭，星星划过，高速，科幻。"

当你输入" 在宁静的山地平移镜头，相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。 "，可以得到如下的效果。

在Voe的展示中，用户可以通过点击扩展，而继续增加视频生成的时长，并且可以保持一致性。

此外，谷歌还发布了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别，比起Dalle-3更胜一筹。而且在对细节的跟随上也要更细致；音乐生成方面，谷歌给Lydia增加了新拓展 Music AI Sandbox。

AI搜索，25年来最大的更新之一

谷歌正式推出了“AI Overviews”搜索体验，将于本周开始向美国地区开放，后续会推广到更多国家和地区。这应该是其搜索引擎 25 年来最大的更新之一。

谷歌搜索业务负责人 Liz Reid 开始具体介绍 AI Overviews 功能。Reid 表示，在进行搜索时，搜素引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个 AI 搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问（例如视频中的相机怎么使用）。

谷歌还介绍了AI搜索的计划能力。用户可以直接在搜索里获得一个完整的计划。比如搜索类似“为一群人创建一个易于准备的三天餐饮计划”，您将获得一个起点，包含来自网络各处的各种食谱。这是其他搜索软件暂时还没有专精的能力。

此外，靠Gemini的多模态功能，谷歌可以做到利用声音搜歌曲，利用图片搜产品。甚至可以用Circle to Secarch 功能圈出图片中的一部分去搜索。在搜索时，你可以通过视频提问，比如录一段视频问道：“为什么这个放不上去？”

谷歌全家桶AI能力升级

结合Gemini的Workspace。你可以通过 Side Panel（一个能唤起Gemini的侧边栏）功能总结一系列邮件，可以总结你的账单，形成一个Sheet。

“Ask Photo”更新后可以与照片进行对话。比如，你可以问Photo app，“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。

谷歌 Gemini 总经理 Sissie Hsiao 介绍了 Gemini App 的更新。与周一的 OpenAI 一样，从今年夏天开始，Gemini 也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互功能。未来几个月内，谷歌也将推出类似于 GPTs 的自定义 AI 助手功能。

在安卓系统方面，谷歌将实现的" 三大突破 "，分别是 " 画圈圈搜索 "、Gemini 手机 AI 助手，第三是在手机本地运行的 AI。

谷歌表示，今年晚些时候，能够在本地运行的多模态 Gemini Nano 模型将登陆 Pixel 手机，意味着手机将能通过文字、图片、视频、音频，理解用户的世界。

发布会现场，谷歌宣布了第六代数据中心 AI 芯片 Tensor 处理器单元（TPU）--Trillium，并表示将于今年晚些时候推出交付。

作为发布会最后的彩蛋，谷歌 CEO 皮查伊最后用 Gemini 总结了今天的发布会稿子里总共提了多少次 AI —— 121 次。

02 谷歌的护城河有多深？

在当今这个AI 时代，Google的危机愈来愈重。

但身在谷歌的人未必如此认为。

作为谷歌的员工，Zellweger一开始加入谷歌就是为了从事注定失败的 Daydream 头盔的工业设计，后来他又转到了 Pixel 硬件团队。

在他看来，“受CEO影响，从公司的角度来看，我们需要成功，这种压力是存在的，制造硬件已经从一种爱好变成了 Google 业务的关键元素。”

而谷歌CEO本人桑达尔·皮查伊在采访中的回答，流露出对谷歌护城河的自信。

早在2016年，他正式担任谷歌CEO，以此身份发布了第一封致股东信。信中，他说：

“我们将从移动优先走向人工智能优先的世界。”

似乎一直被认为落后的谷歌暗地里早有准备。或者夸张来讲，AI的第一波浪潮，还是谷歌掀起的水花。然而，不少网友仍然调侃其为“起了个大早，赶了个晚集”。

谷歌的“保守”对于称霸来说，很难，但作为护城河而言，足够用。

每个时代、每个公司，都或多或少在管理和员工身上多下功夫。能够让谷歌与众不同的地方，还在于独到的员工成长文化。

谷歌创始人拉里·配齐和谢尔盖·布林曾倡导“20%时间”文化，允许员工将工作20%的时间用以个人兴趣和创新当中，希望用创造力支撑发言权，这无疑可以筛选一批有活力的开放员工。正如英特尔前CEO安迪·格鲁夫所说，“只有偏执狂才能生存。”

针对近日广受挑战的搜索引擎，皮查伊也有自己的看法。谷歌搜索的独特之处在于，即使有时会直接给出答案，但我们始终会链接到各种来源。

多年来，谷歌一直在搜索中提供直接的答案。现在的模式入手，我们只是借助生成式人工智能在实现这一点。

链接功能将一直存在，理解并满足这些多样化的需求，正是搜索的真正魅力所在。

他还曾就搜索质量面临的质疑进行正面回答：

技术或行业发生变革，伴随着大量新内容的涌现，人工智能领域亦然。谷歌会把它当成一项挑战。我坚信，成功应对这种挑战将重新定义高质量的产品，这将是搜索取得成功的关键。谷歌深知被给予了很高的期望，我们也清楚需要为此承担的责任。

当被问道相较GPT，谷歌似乎错失了许多重要机会时，皮查伊表示：

从长远的视角看待这个问题，互联网兴起时，谷歌甚至还不存在，对吧？

谷歌是第一家专注于搜索的公司。

谷歌是第一家推出电子邮件服务的公司。

谷歌是第一家开发浏览器的公司。

因此，我认为人工智能领域也正处于其最早期的阶段。

当然，皮查伊也清楚地知道，对所有公司，尤其是那些规模庞大的企业来说，最大的潜在威胁就是执行力不足。

03 进入AI月，每个玩家生怕落后，大模型大招不断，大牛纷纷炫技

从5月10日到6月10日，AI领域的玩家接连上阵，发新品、更新财报，给开发者和投资者们贡献一场场精彩绝伦的科技盛宴。

硅谷大牛们似乎从不懈怠，一个接着一个的炫技……

就在谷歌的I/O开发者大会2024前一天，OpenAI一夜改写历史，在发布会上闪亮官宣了新产品：GPT-4o。就连发布会本身都是AI在开，难分真假的CTO Mira Murati意味着OpenAI朝着更加自然的人机交互迈进。

微软也不甘示弱，5月21日，微软将举办2024 Build年度开发者大会。

根据官方公布的信息，两场分论坛将分别聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。

其中，“下一代Windows on Arm”分论坛将着重介绍有关应用程序“行业领先性能”的详细信息，以及“Arm驱动的Windows的新体验”，例如采用NPU功能的智能Windows应用程序，可能包括更多的Windows AI功能。

此外，微软还将详细介绍Windows开发者体验方面的一些改进。

AI之外，明星产品Copilot可能将成为2024微软Build年度开发者大会的重点议题之一。

一场振奋人心的技术革新，说不定又将在一夜之间诞生。

紧接着的下一天，英伟达将于5月22日公布一季度财报。

借着AI浪潮，“卖铲人”英伟达财报表现一直颇为亮眼，今年年初公布的财报更是展现了强劲的收入和净利润增长。而在市场的表现上，据市场研究机构 Trendforce 最新报告显示，英伟达已经超越高通，成为 2023 年全球收入最高的芯片设计厂商。

虽然英伟达发布财报当天不会透露太多新品动作，但市场上流传了不少消息——据《经济日报》报道，业内传闻，手机芯片大厂联发科正携手AI芯片大厂英伟达（NVIDIA）开发基于Arm架构的AI PC处理器，预计将在今年三季度完成设计定案（tape out），第四季度进入验证，售价或将高达300美元。

大差不差、紧随其后的苹果也有秘密武器？6月10日至6月14日，苹果将举行年度全球开发者大会（WWDC）。

在AI潮席卷全球的时候，苹果不断调整自身战略以期追赶时代潮流，但效果总是不尽如人意。

MR头显Vision Pro被寄予苹果近十年来开辟新品类的希望，但首发美国后的反响不佳。不及市场预期的出货量和后期疲软的用户需求，给苹果泼了一盆冷水。

而另一个备受瞩目的电动汽车项目也被取消，部分员工将转移到苹果的人工智能（AI）部门。而生成式人工智能项目，正是公司日程表里愈发重要的事项。

可以看到，苹果对于AI的焦虑和急迫。

苹果全球营销高级副总裁Greg Joswiak在X上表示：“请在日历标记上WWDC24吧。这场活动将绝对震撼！”这里的彩蛋是，Joswiak特意把“Absolutely Incredible（绝对不可思议）”的首字母拼成大写，合起来就是当下最火的科技概念——AI。

04 硅谷加班卷疯了，铁打的程序员、流水的加班线?

改编《北京人在纽约》中一句经典台词描述硅谷，似乎毫无争议：「爱TA，就把TA送到硅谷；恨他，也把他送到硅谷。」

高薪、高自由度的硅谷，既被奉为「Work Life Balance」的自由天堂，也被认为是「加班文化」最强的“内卷”集中地。硅谷公司不强迫加班，原因很简单：加班无法与工作质量划等号。同时，硅谷公司不缺少加班，原因同样简单：上班无法脱离工作狂的生活独立存在。

GPT的到来，让硅谷的「卷」文化更上一层楼。

只不过这次技术迭代，伤害的大多数是工程师。如同英伟达CEO黄仁勋所说，AI正位于iPhone时刻。整个硅谷都在压力中爆发，试图在发布上与对手分出毫厘之胜。

一位硅谷员工甚至将这种状态概括为“边飞、边造飞机”。

亚马逊的工程师也是如此。美好的周末计划被一条Slack消息打破。夜以继日地加班，结果却是项目优先级降低。几千行代码付诸东流。

专家们无时无刻不在紧急开发的功能、软件，让工程师的心也跟着跌宕起伏。项目顺利则功成名就；项目叫停则进度归0。这便是此时此刻的「硅谷状态」。不少工程师陷入职业倦怠，随之揭开了AI热不为人知的另一面：很急，但不知道在急什么。

抱怨声的出现不会暂停巨头公司的任何决定。

微软首席财务官Amy Hood曾表示，公司正在调整人手，将优先专注AI，并且优先投资AI。因为，未来十年的关键因素。

Meta CEO扎克伯格也是如此，他认为，未来几年，应该大力投资、开发更先进的模型和世界上规模最大的AI服务。

亚马逊CEO Andy Jassy鼓励投资者增加对生成式AI的资本投入，他认为，技术领域很少见到如此的机会，甚至从互联网问世以来。

速度的加持下，匆忙的产出、单薄的人力偶尔也会导致翻车，Gemini的仓皇下线、Bard的备受质疑，都是如此。

对比之下，谷歌的上班文化，也走着相似的硅谷风。谷歌鼓励「不加班」，但要求「on call」。这意味着需要你的时候，你就要在。不少局外者将这种模式称为超越「996」的「24*7」。

天堂与地狱的区别，似乎区别在于工作是否只是工作本身。如果作为兴趣，如果成为生活，似乎越“虐”越有“事业感”。

本质上，每个人的工作观不同，加班狂屡见不鲜，朝九晚五、渴望下班的打工人更是拥有自己的快乐。

然而，在硅谷，「卷」已经成为囊括大多数程序员的形容词，也是当下AI竞赛的真实写照。

现在，每一次发布会似乎都成了一场无声的较量。

科技巨头们像商量好了一样你追我赶，都想以各自的创新技术证明自身、抢得一份里程碑式成就。“百模大战”时期的到来，在高强度压力中全面释放了AI的潜力，也让每一位“姗姗来迟”的公司，都可能成为最终的赢家。因此，每一次突破，都不容错过。

一切革命性时刻，都值得拭目以待。

参考文献：

1. 硅谷AI工程师内卷崩溃记：996写代码项目被砍，连续熬夜只为讨好投资人！by新智元

2.科技界的“AI月”即将开启！OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验和期待？by每日经济新闻

3.谷歌CEO最新访谈：AI浪潮仍处于早期阶段，公司未来最大威胁是执行力不足（视频+实录） by腾讯科技

4.独家专访谷歌CEO桑达尔·皮查伊：基于我的个人经历，我一直相信人和人性 by DeepTech深科技

5.谷歌的这场活动已经办了16年，为何它叫I/O？by科技行者

6.跟 OpenAI 争夺「iPhone 合作权」的 Google，后天要发布什么才能「弯道超车」 by爱范儿

7.谷歌一夜亮出十几款产品对阵OpenAI：什么都有，只是没有惊喜 by腾讯科技

本文为转载内容，授权事宜请联系原著作权人。

谷歌

6.1k

高通与谷歌达成多年战略合作，将提供生成式AI数字座舱解决方案21小时前
霍尼韦尔与谷歌达成协议，将Gemini引入工业领域2天前

谷歌硅谷大模型

暂无评论哦，快来评价一下吧！

下载界面新闻

微信公众号

微博

谷歌