专题:聚焦谷歌2024年I/O开发者大会:实时交互、视频模型登场
OpenAI召开春季发布会第二日,谷歌则以新一届I/O开发者大会对阵。
这场活动自北京时间5月15日凌晨1点开始便“火药味”满满。谷歌在会上选择“宣布一切”:连续发布、更新了十多款产品,包括AI助手Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及备受瞩目的旗舰大模型Gemini。
当OpenAI“鸽”掉搜索,转而推出最新旗舰大模型GPT-4o后,长期占据搜索霸主地位的谷歌,不仅重新设计了AI搜索,还同步推出AI识图助手。
Gemini的新语音对话功能Live更是直接对标OpenA的的GPT-4o,同样可通过手机实时询问周围的情况,即使中断对话也能再及时跟进。
此外,谷歌浏览器Chrome将添加GeminiNano。后者是Gemini系列中的一个轻量级版本,主要针对移动设备设计。
谷歌还表示,另一小模型Gemma2.0即将于今年夏天推出,包括开源模型PaliGemma,可用于标记照片以及为图像添加标题。Gemma模型采用与Gemini模型相同的技术栈,但规模更小,适合在资源受限的环境中部署。
很大程度上,人工智能竞赛也是一次争夺智能手机的竞赛。谷歌产品管理副总裁SameerSamat明确表示,谷歌将通过Gemini进一步优化安卓操作系统。这种优化将首先在谷歌自家手机Pixel上得到体现。
Gemini显然是此次发布会的主角,这当中尤以多模态和长上下文技术被着墨更多。
过去几个月,谷歌已经推出了能够进行长上下文预览的Gemini 1.5Pro,在翻译、编码和推理方面进行了一系列改进。目前,Gemini 1.5Pro的上下文长度由100万token(文本处理的基本单位)刷新到200万token,三个月即翻了一倍,表明该公司急于借此向外界“秀肌肉”。
此时距离Gemini问世已有一年,这一多模态大模型已经可以跨文本、图像、视频、代码等进行推理。据谷歌透露,有20亿用户以及超150万开发人员都在使用Gemini模型,该模型可被用于调试代码、获得新的见解并构建下一代人工智能应用程序。
为了能够进一步展示该模型的多种特性,谷歌针对搜索、照片、安卓系统等不同场景做了更加细致地介绍。
例如在搜索方面,Gemini为其带来了全面的AI化改造。用户可以提出更新、更长、更复杂的问题进行查询,甚至利用照片进行搜索。谷歌计划在本周开始向美国地区推出“AI概述”搜索,后续会在其他国家上线。
谷歌在现场展示了“询问照片”这一功能。当用户在停车场付费却忘记了车牌号码时,通常可能会在手机照片中搜索关键字,浏览大批过往照片来寻找车牌。但现在,只需询问照片,就能准确告知经常出现的汽车,对车辆进行三角测量,并告知车牌号。
再比如,你可以向照片提问自己的孩子是什么时候学会游泳的,甚至于干脆让照片告诉你孩子的游泳进展如何。
Gemini不仅仅是一个聊天机器人,也是个人助手,能够帮助用户处理复杂的任务以及采取行动。Gemini 1.5 Pro也被引入谷歌云计算服务GoogleWorkspace。谷歌号称,Gemini可以完成所有工作所需步骤。以退货为例,AI可在邮件中搜索收据,找到相应的订单号,自动填写退货表格,并安排取件。
大模型就是一场算力竞赛,训练最先进的模型需要大量的算力。过去六年中,行业对机器学习计算的需求增长了100万倍,并且每年都会增加十倍。作为AI时代的重要参与者,谷歌也在基础设施方面发力颇多。
当晚,谷歌即发布了第六代TPU(谷歌专为加速机器学习工作负载而设计的一种应用特定集成电路)——“Trillium”,并称Trillium是其迄今为止性能最高、效率最高的TPU,与上一代TPUv5e相比,每个芯片的计算性能提高了4.7倍,计划将在今年底向客户提供。
Gemini完全在谷歌自研的第四代和第五代TPU上接受训练和服务,包括Anthropic在内的其他领先人工智能公司也在TPU上训练了他们的模型。
但在谷歌为其各种产品“灌注”AI功能的同时,意味着用户需要对个人隐私数据做出更多让渡。对此,谷歌承诺,不会使用其平台上的用户文件来训练Gemini或其他人工智能模型。
谷歌CEO皮查伊表示,当天的发布会“提到了121次AI”,足以表明AI对谷歌的重要性。但除了强调重要之外,这场被外界所期待的针对OpenAI的反击,并没有带来更大的惊喜。
还木有评论哦,快来抢沙发吧~