Stability AI 推出了 Stable Video3D(SV3D),这是一款用于生成3D 视频的新型 gen AI 工具。SV3D 是在稳定 AI 之前的 Stable Video 技术基础上开发的,该技术使用户能够从图像或文本提示中生成短视频。SV3D 构建在Stability AI 先前的 Stable Video Diffusion 模型基础上,针对新视角合成和3D 生成的任务进行了调整。通过 SV3D,Stability AI 为其视频生成模型增加了新的深度,能够从单个输入图像创建和转换多视角3D 网格。
SV3D 现在可供商业用途使用,价格为每月20美元的 Stability AI 专业会员资格(针对年收入不到100万美元的创作者和开发人员)。对于非商业用途,用户可以从 Hugging Face 下载体验模型。
SV3D 特色亮点包括:
- Stable Video3D (SV3D) 是基于 Stable Video Diffusion 的生成模型,可以接收物体的静止图像作为条件帧,并生成该物体的轨道视频。
- 该模型经过训练,可以生成分辨率为576x576的21帧视频,输入为相同分辨率的上下文帧,是从 SVD Image-to-Video 进行了微调的。
- SV3D 释放了两个模型变体:SV3D_u 可以基于单张图像输入生成轨道视频,而 SV3D_p 则扩展了 SVD3_u 的功能,支持单张图像和轨道视图,可以沿指定的相机路径创建3D 视频。
- 由 Stability AI 开发,是一种生成式图像到视频模型,遵循 StabilityAI 非商业研究社区许可协议。
- 模型的训练数据来自 Objaverse 数据集的渲染图像,使用了增强的渲染方法,更好地模拟了现实世界中的图像分布,显著提高了模型的泛化能力。
Stability AI 首席研究员 Varun Jampani 表示:“通过将我们的 Stable Video Diffusion 图像到视频扩散模型与摄像机路径调节相结合,Stable Video3D 能够生成对象的多视角视频。” 他还表示:“Stable Video3D 是生成3D 资产的有价值工具,尤其在游戏领域。此外,它还能够生产360度轨道视频,对电子商务领域非常有用,提供更具沉浸感和互动性的购物体验。”
Stability AI 最为人所知的是其 Stable Diffusion 文本到图像 gen AI 模型,其中包括 SDXL 和 Stable Diffusion3.0,后者仍处于早期研究预览阶段。稳定 Diffusion1.5是一个开源图像生成模型,是许多其他 AI 图像生成和视频产品的基础,包括 Runway 和 Leonardo AI。
去年12月,Stability AI 发布了 Stable Zero123模型,为构建3D 图像提供了新的能力。当时,Stability AI 创始人兼首席执行官 Emad Mostaque 表示,Stable Zero123将是一系列3D 模型中的第一个。
SV3D 技术与 Stable Zero123采用了不同的3D 生成方法。Jampani 解释说,Stable Video3D 可以看作是前作 Stable Zero123的改进版。Stable Video3D 是一种新型视角合成网络,以单个图像作为输入,并输出新视角图像。
在一篇研究论文中,Stability AI 研究人员详细介绍了使用潜在视频扩散实现从单个图像生成3D 的一些技术。SV3D 的关键优势之一在于其能够生成对象的一致多视角图像。根据稳定 AI 的说法,SV3D 可以从任意角度提供连贯的视图。
SV3D 不仅具有新视角合成功能,还致力于优化3D 网格。通过利用其多视角一致性,SV3D 可以直接从其生成的新视图中生成高质量的3D 网格。
SV3D 有两种强大的变体,分别针对特定的使用案例进行设计。SV3D_u 可以基于单个图像输入生成轨道视频,无需摄像机调节。而 SV3D_p 则扩展了这一功能,既可以使用单个图像,也可以使用轨道视图,允许用户沿指定的摄像机路径创建3D 视频。
体验入口:https://stability.ai/news/introducing-stable-video-3d
本文来源于#站长之家,由@tom 整理发布。如若内容造成侵权/违法违规/事实不符,请联系本站客服处理!
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/801.html