谷歌反击OpenAI奇袭：发布生成式AI版搜索引擎等大模型“全家桶”

更新时间：2025-02-24 11:02 zixunge 发布时间：10个月前 2 0

专题：聚焦谷歌2024年I/O开发者大会：实时交互、视频模型登场

　　OpenAI召开春季发布会第二日，谷歌则以新一届I/O开发者大会对阵。

　　这场活动自北京时间5月15日凌晨1点开始便“火药味”满满。谷歌在会上选择“宣布一切”：连续发布、更新了十多款产品，包括AI助手Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo，以及备受瞩目的旗舰大模型Gemini。

　　当OpenAI“鸽”掉搜索，转而推出最新旗舰大模型GPT-4o后，长期占据搜索霸主地位的谷歌，不仅重新设计了AI搜索，还同步推出AI识图助手。

　　Gemini的新语音对话功能Live更是直接对标OpenA的的GPT-4o，同样可通过手机实时询问周围的情况，即使中断对话也能再及时跟进。

　　此外，谷歌浏览器Chrome将添加GeminiNano。后者是Gemini系列中的一个轻量级版本，主要针对移动设备设计。

　　谷歌还表示，另一小模型Gemma2.0即将于今年夏天推出，包括开源模型PaliGemma，可用于标记照片以及为图像添加标题。Gemma模型采用与Gemini模型相同的技术栈，但规模更小，适合在资源受限的环境中部署。

　　很大程度上，人工智能竞赛也是一次争夺智能手机的竞赛。谷歌产品管理副总裁SameerSamat明确表示，谷歌将通过Gemini进一步优化安卓操作系统。这种优化将首先在谷歌自家手机Pixel上得到体现。

　　Gemini显然是此次发布会的主角，这当中尤以多模态和长上下文技术被着墨更多。

　　过去几个月，谷歌已经推出了能够进行长上下文预览的Gemini 1.5Pro，在翻译、编码和推理方面进行了一系列改进。目前，Gemini 1.5Pro的上下文长度由100万token（文本处理的基本单位）刷新到200万token，三个月即翻了一倍，表明该公司急于借此向外界“秀肌肉”。

　　此时距离Gemini问世已有一年，这一多模态大模型已经可以跨文本、图像、视频、代码等进行推理。据谷歌透露，有20亿用户以及超150万开发人员都在使用Gemini模型，该模型可被用于调试代码、获得新的见解并构建下一代人工智能应用程序。

　　为了能够进一步展示该模型的多种特性，谷歌针对搜索、照片、安卓系统等不同场景做了更加细致地介绍。

　　例如在搜索方面，Gemini为其带来了全面的AI化改造。用户可以提出更新、更长、更复杂的问题进行查询，甚至利用照片进行搜索。谷歌计划在本周开始向美国地区推出“AI概述”搜索，后续会在其他国家上线。

　　谷歌在现场展示了“询问照片”这一功能。当用户在停车场付费却忘记了车牌号码时，通常可能会在手机照片中搜索关键字，浏览大批过往照片来寻找车牌。但现在，只需询问照片，就能准确告知经常出现的汽车，对车辆进行三角测量，并告知车牌号。

　　再比如，你可以向照片提问自己的孩子是什么时候学会游泳的，甚至于干脆让照片告诉你孩子的游泳进展如何。

　　Gemini不仅仅是一个聊天机器人，也是个人助手，能够帮助用户处理复杂的任务以及采取行动。Gemini 1.5 Pro也被引入谷歌云计算服务GoogleWorkspace。谷歌号称，Gemini可以完成所有工作所需步骤。以退货为例，AI可在邮件中搜索收据，找到相应的订单号，自动填写退货表格，并安排取件。

　　大模型就是一场算力竞赛，训练最先进的模型需要大量的算力。过去六年中，行业对机器学习计算的需求增长了100万倍，并且每年都会增加十倍。作为AI时代的重要参与者，谷歌也在基础设施方面发力颇多。

　　当晚，谷歌即发布了第六代TPU（谷歌专为加速机器学习工作负载而设计的一种应用特定集成电路）——“Trillium”，并称Trillium是其迄今为止性能最高、效率最高的TPU，与上一代TPUv5e相比，每个芯片的计算性能提高了4.7倍，计划将在今年底向客户提供。

　　Gemini完全在谷歌自研的第四代和第五代TPU上接受训练和服务，包括Anthropic在内的其他领先人工智能公司也在TPU上训练了他们的模型。

　　但在谷歌为其各种产品“灌注”AI功能的同时，意味着用户需要对个人隐私数据做出更多让渡。对此，谷歌承诺，不会使用其平台上的用户文件来训练Gemini或其他人工智能模型。

　　谷歌CEO皮查伊表示，当天的发布会“提到了121次AI”，足以表明AI对谷歌的重要性。但除了强调重要之外，这场被外界所期待的针对OpenAI的反击，并没有带来更大的惊喜。

本文地址： http://www.bkzisnm.cn/post/432925.html

标签：