AI模型(PIGEON):通过几张照片就能找到你的位置

站长之家 2023-12-20 10:54:27新闻资讯
21

斯坦福大学的研究生们开发了一款名为 PIGEON 的应用程序,可以仅仅通过查看 Google 街景图像或其他图像来确定具体位置,其准确率令人印象深刻。

根据预印本论文的数据,PIGEON 可以以92%的准确率预测所拍摄国家,并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。该论文指出,PIGEON 在 GeoGuessr 游戏中排名前0.01%的玩家之内,该游戏要求用户根据所拍摄的 Google 街景图像猜测位置,这也是这个项目的灵感来源。

那么,PIGEON 是如何工作的呢?

学生们利用了 OpenAI 开发的神经网络 CLIP,通过对视觉类别名称进行训练,使其能够将文本和图像进行连接。然后,他们根据 GeoGuessr 的数据集进行了训练,该数据集包含了10万个原始随机采样的地点和四张图像,以覆盖给定位置的整个 “全景”,总共有40万张图像。与其他 AI 模型训练的图像数量相比,PIGEON 的训练图像数量相对较少。例如,OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像进行训练的。

PIGEON.png

此外,学生们还研发了一个名为 PIGEOTTO 的单独模型,该模型通过训练来自 Flickr 和维基百科的400万张照片,以从单张图像中识别位置。根据论文的数据,PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩,在城市准确度方面超过先前的最新技术结果7.7%,在国家准确度方面超过29.8%。

论文还探讨了与该模型相关的伦理考虑,包括其益处和风险。在一方面,图像地理定位具有许多积极的用途,例如自动驾驶、视觉调查以及满足对照片拍摄地点的好奇心。然而,其负面影响包括对隐私的最直接侵犯。因此,学生们决定不公开发布模型权重,仅在学术验证时发布代码。

这项研究为我们展示了 AI 在图像地理定位方面的巨大潜力,但也引发了隐私和伦理方面的一些担忧。在将来的发展中,必须更加重视这些问题,并确保合适的保护措施得以实施。

论文网址:https://arxiv.org/abs/2307.05845

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SPIRIT LM:Meta开源的多模态大语言模型,能自由混合并理解文本和语音数据
SPIRIT LM(Spirit Language Model),由Meta AI团队开发并开源,是一款具有里程碑意义的多模态大语言模型。不同于传统语言模型主要聚焦于单一模态(如纯文本)的处理,SPIRIT LM...
2024-11-22 新闻资讯
106

Whisper-NER:aiOla推出的开源AI音频转录模型,实时遮蔽敏感信息
Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21 新闻资讯
115

Ultravox:Fixie AI推出的开源多模态实时语音交互AI模型
在人工智能技术飞速发展的今天,实时语音交互已成为人们日常生活的重要组成部分。Ultravox,一款由FixieAI公司开发的创新性多模态大语言模型,旨在提供一个封闭源模型如 GPT-...
2024-11-15 新闻资讯
121

Anthropic新一代AI模型 Claude3.5 Opus即将亮相,引领人工智能能力新跨越
在人工智能领域的最新发展中,Anthropic公司宣布即将推出其新一代AI模型——Claude3.5 Opus,这一消息在业界引起了广泛关注。公司首席执行官达里奥·阿莫德伊在Lex Fridman播...
2024-11-13 新闻资讯
116

Hallo:基于扩散模型的高精度音频驱动肖像动画AI模型
Hallo是一项由复旦大学、百度公司、苏黎世联邦理工学院和南京大学联合开发的革命性AI技术。这项技术通过用户上传的照片,结合语音输入,能够生成高度逼真且动态的肖像动画,实...
2024-11-13 新闻资讯
111

Bark:Suno AI推出的多语言文本到音频(TTA)模型
Bark 是由 Suno 开发的一款基于变压器架构的先进 TTA 模型,它不仅能够生成高度逼真的多语言语音,还能生成音乐、背景噪音和简单的声音效果,甚至非语言交流如笑声、叹息和哭...
2024-11-12 新闻资讯
125