网站导航

新闻资讯 编程技术 电脑知识 站长之家 自媒体

阿里巴巴开源Qwen2-VL：革新多模态AI，超越GPT-4o的性能

网络 2024-08-30 10:29:59新闻资讯

160

2024年8月30日消息：在人工智能技术的飞速发展中，阿里巴巴集团近日宣布开源其最新研发的视觉多模态模型——Qwen2-VL，标志着公司在AI领域的又一次重要突破。Qwen2-VL模型在多项性能测试中超越了包括OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet在内的多个著名闭源模型，展现出其卓越的技术实力。

阿里通义千问.jpg

Qwen2-VL模型亮点

多语言支持：Qwen2-VL模型支持中文、英文、日文、韩文等多种语言，为全球用户提供了更广泛的应用可能。
商业化友好：在Apache2.0协议下，Qwen2-VL允许商业化使用，极大地促进了模型的广泛应用和创新。
API发布：为了帮助开发者更好地利用Qwen2-VL模型，阿里巴巴同时发布了Qwen2-VL-72B的API，进一步降低了开发门槛。

技术特色与性能

Qwen2-VL模型基于上一代Qwen2进行开发，具备以下特色功能：

长视频理解：能够理解长达20分钟以上的视频内容，并应用于视频问答、对话和内容创作。
视觉智能体操作：集成到手机、机器人等设备，执行基于视觉环境和文字指令的自动操作。
多分辨率图像理解：在多个视觉理解基准测试中取得全球领先的表现，能够读懂不同分辨率和长宽比的图片。

在性能评估方面，Qwen2-VL的72B模型在大部分指标上超越了GPT-4o，尤其是在视频理解和多语言图像理解方面展现出色的表现。即使是7B模型，其性能也与GPT-4mini相当，在文档理解和多语言图像理解方面达到了行业领先水平。

架构创新

Qwen2-VL在架构上实现了对原生动态分辨率的全面支持，能够处理任意分辨率的图像输入。此外，模型采用了多模态旋转位置嵌入（M-ROPE）技术，有效提升了对一维文本序列、二维视觉图像以及三维视频的位置信息的捕捉和整合能力。

实际应用案例

阿里巴巴已经展示了Qwen2-VL在多个实际应用场景中的潜力，包括对长视频的详细解读和基于视频内容的实时问答。Qwen2-VL能够准确回答有关视频中特定事件的问题，甚至能够解读图像内容并回答相关问题。

结语

阿里巴巴开源Qwen2-VL模型，不仅展现了公司在AI技术上的深厚积累，也为全球开发者和企业提供了强大的多模态AI工具。随着Qwen2-VL的开源，预计将进一步推动多模态AI技术的发展和应用，为各行各业带来深远的影响。

阿里巴巴 Qwen2-VL GPT-4o

本文来源于#网络，由@tom 整理发布。如若内容造成侵权/违法违规/事实不符，请联系本站客服处理!

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/1764.html

THE END

tom

不图事事圆满但图事事甘心。

相关推荐

AudioLCM：浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型

AudioLCM：浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型

AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中，并引入多步常微分方程(mul...

2025-01-13 新闻资讯

124

阿里巴巴矢量图标库(iconfont)的几种使用方法详解

阿里巴巴矢量图标库(iconfont)的几种使用方法详解

阿里巴巴矢量图标库(Iconfont)作为一个免费的图标库平台，提供了丰富的图标资源和多种使用方法，深受广大开发者和设计师的喜爱。本文ZHANID工具网将详细介绍阿里巴巴矢量图标...

2025-01-13 编程技术

139

FunASR：阿里巴巴达摩院开源的语音识别工具包

FunASR：阿里巴巴达摩院开源的语音识别工具包

FunASR是由阿里巴巴达摩院开源的语音识别工具包，旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它集成了语音端点检测、语音识别、标点预测等领域的工业级...

2024-12-24 新闻资讯

170

Marco-o1：阿里巴巴开源的一款先进大型推理模型

Marco-o1：阿里巴巴开源的一款先进大型推理模型

Marco-o1是阿里巴巴国际数字商业集团MarcoPolo团队研发的一款先进的大型推理模型。该模型基于Qwen2-7B-Instruct架构，通过结合多种先进技术和大量训练数据，旨在解决复杂现实...

2024-11-26 新闻资讯

203

Outfit Anyone：阿里巴巴集团智能研究院推出的AI虚拟试衣开源项目

Outfit Anyone：阿里巴巴集团智能研究院推出的AI虚拟试衣开源项目

Outfit Anyone 是由阿里巴巴集团智能计算研究院推出的一款基于人工智能技术的开源AI虚拟试衣项目，通过先进的计算机视觉和深度学习技术，用户可以上传自己的照片或选择预设的...

2024-11-11 新闻资讯

372

MIMO：阿里巴巴智能研究院开源的多功能可控视频合成模型

MIMO：阿里巴巴智能研究院开源的多功能可控视频合成模型

MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型，其核心思想是将2D视频编码为紧凑的空间代码，并考虑视频发生的固有3D特性。通过这种编码方式，MIM...

2024-11-10 新闻资讯

199

推荐工具

热门文章

1 ed2k下载工具有哪些：8款广受好评的ed2k下载工具推荐 2 下划线“_”怎么打？电脑中下划线符号输入方法详解 3 Word顶端有一条横线怎样删除？删除Word顶部横线的几种方法 4 Safari 无法与服务器建立安全连接的解决方法 5 微信文件传输助手文件存放位置详解(电脑+手机) 6 微信网页版登录不了怎么办？微信网页版登录不了的解决方法详解

图文资讯

图片压缩软件有哪些？5款免费好用的图片压缩软件推荐

软件下载

太极工具箱
下载
太极工具箱app是一款工具聚合软...
宇宙工具箱
下载
宇宙工具箱是一款功能十分强大且...
金花站长工具
下载
金花站长工具是一款可以进行百度...
爱站SEO工具包
下载
爱站SEO工具包是一款强大的站长工...
入梦工具箱
下载
入梦工具箱是一款仿照图吧工具箱...
极速图片压缩器
下载
极速图片压缩器是一款功能十分强...