Gemini不仅仅是一个人工智能模型,它代表了多模态模型的崭新时代。Gemini具有独特的能力,不仅能够理解文本,还能够无缝地处理图像、视频和音频。Google DeepMind的首席执行官Dennis Hassabis表示,Gemini经过精心设计,使其在文本、代码、音频、图像和视频等多种信息类型之间能够泛化和操作。其能力甚至扩展到执行复杂的数学、物理和编码任务。
Gemini的开发是谷歌内部各个团队广泛合作的结果,涵盖了谷歌研究和Google DeepMind的专业知识。作为迄今为止谷歌最先进的人工智能模型,Gemini展示了集体人工智能专业知识的力量。
Gemini有三个版本,以满足不同的计算需求:Nano、Pro和Ultra。Nano专为智能手机设计,特别适用于Google Pixel8,能够在设备上高效处理任务。Pro在谷歌的数据中心运行,驱动着谷歌AI聊天机器人Bard的最新版本,表现出色。而Ultra则是Gemini中最强大的版本,定位于执行高度复杂的任务,在广泛使用的32个学术基准中表现卓越。
目前,Gemini可以通过与Google Bard和Google Pixel8的集成来访问。随着时间推移,谷歌计划将Gemini集成到各种服务中,包括Search、Ads和Chrome。从2023年12月13日开始,开发人员和企业客户将能够通过Google AI Studio和Google Cloud Vertex AI中的Gemini API访问Gemini Pro。而Android开发人员将在早期预览阶段通过AICore获得对Gemini Nano的访问权限。
与其他人工智能模型(如GPT-4)相比,Gemini在本地多模态能力上独具特色。不同于依赖插件和集成的GPT-4,Gemini能够无缝执行多模态任务,并专注于集成到谷歌的生态系统中,为Bard和Pixel8设备提供动力,与以服务为导向的模型有所区别。
Gemini的发布将推动大型语言模型的发展,为未来的AI应用开辟更多可能性。
本文来源于#站长之家,由@tom 整理发布。如若内容造成侵权/违法违规/事实不符,请联系本站客服处理!
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/232.html