阿里巴巴开源Qwen2-VL:革新多模态AI,超越GPT-4o的性能

网络 2024-08-30 10:29:59新闻资讯
124

2024年8月30日消息:在人工智能技术的飞速发展中,阿里巴巴集团近日宣布开源其最新研发的视觉多模态模型——Qwen2-VL,标志着公司在AI领域的又一次重要突破。Qwen2-VL模型在多项性能测试中超越了包括OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet在内的多个著名闭源模型,展现出其卓越的技术实力。

阿里通义千问.jpg

Qwen2-VL模型亮点

  1. 多语言支持:Qwen2-VL模型支持中文、英文、日文、韩文等多种语言,为全球用户提供了更广泛的应用可能。

  2. 商业化友好:在Apache2.0协议下,Qwen2-VL允许商业化使用,极大地促进了模型的广泛应用和创新。

  3. API发布:为了帮助开发者更好地利用Qwen2-VL模型,阿里巴巴同时发布了Qwen2-VL-72B的API,进一步降低了开发门槛。

技术特色与性能

Qwen2-VL模型基于上一代Qwen2进行开发,具备以下特色功能:

  • 长视频理解:能够理解长达20分钟以上的视频内容,并应用于视频问答、对话和内容创作。

  • 视觉智能体操作:集成到手机、机器人等设备,执行基于视觉环境和文字指令的自动操作。

  • 多分辨率图像理解:在多个视觉理解基准测试中取得全球领先的表现,能够读懂不同分辨率和长宽比的图片。

在性能评估方面,Qwen2-VL的72B模型在大部分指标上超越了GPT-4o,尤其是在视频理解和多语言图像理解方面展现出色的表现。即使是7B模型,其性能也与GPT-4mini相当,在文档理解和多语言图像理解方面达到了行业领先水平。

架构创新

Qwen2-VL在架构上实现了对原生动态分辨率的全面支持,能够处理任意分辨率的图像输入。此外,模型采用了多模态旋转位置嵌入(M-ROPE)技术,有效提升了对一维文本序列、二维视觉图像以及三维视频的位置信息的捕捉和整合能力。

实际应用案例

阿里巴巴已经展示了Qwen2-VL在多个实际应用场景中的潜力,包括对长视频的详细解读和基于视频内容的实时问答。Qwen2-VL能够准确回答有关视频中特定事件的问题,甚至能够解读图像内容并回答相关问题。

结语

阿里巴巴开源Qwen2-VL模型,不仅展现了公司在AI技术上的深厚积累,也为全球开发者和企业提供了强大的多模态AI工具。随着Qwen2-VL的开源,预计将进一步推动多模态AI技术的发展和应用,为各行各业带来深远的影响。

阿里巴巴 Qwen2-VL GPT-4o
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Outfit Anyone:阿里巴巴集团智能研究院推出的AI虚拟试衣开源项目
Outfit Anyone 是由阿里巴巴集团智能计算研究院推出的一款基于人工智能技术的开源AI虚拟试衣项目,通过先进的计算机视觉和深度学习技术,用户可以上传自己的照片或选择预设的...
2024-11-11 新闻资讯
150

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
124

Animate-X:阿里巴巴蚂蚁集团开发的通用角色图像动画系统
Animate-X是一个由阿里巴巴蚂蚁集团开发的通用角色图像动画系统,能够通过增强运动表现进行动画制作,使得静态图像能够自动转化为动态角色动画。这一技术的出现,不仅降低了动...
2024-10-30 新闻资讯
141

EchoMimic:阿里巴巴达摩院推出的AI音频驱动图片说话开源项目
EchoMimic是阿里巴巴达摩院推出的一款AI音频驱动图片说话开源项目,专注于通过先进的深度学习技术将静态图像转化为具有动态语音和表情的数字人像。这项技术的核心在于它能够根...
2024-10-29 新闻资讯
142

FunClip:阿里巴巴出品的开源AI自动化视频剪辑工具
FunClip一款完全开源、本地部署的开源AI自动化视频剪辑工具。通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果...
2024-07-28 电脑知识
274

GPT-4o mini是什么?GPT-4o mini和GPT-4o的区别对比
GPT-4o mini是OpenAI于2024年7月18日推出的迷你AI模型,它是GPT-4o的一个分支。本文ZHANID将深入探讨GPT-4o mini的核心特点、应用场景以及与完整版GPT-4o的主要区别。我们将从...
2024-07-20 电脑知识
188