Ai模型(Magi):可自动将漫画转录成文字并生成剧本

站长之家 2024-03-12 12:14:02新闻资讯
109

牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的Ai模型,可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi.png

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。

除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。

通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。

论文:https://arxiv.org/abs/2401.10224

项目入口:https://github.com/ragavsachdeva/magi

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

VMix:提升文本到图像扩散模型的交叉注意力混合控制
VMix是一种新颖的即插即用适配器,通过细粒度的美学控制显著提升了文本到图像生成模型的性能。其灵活的设计和强大的功能使其在个性化图像生成、艺术创作、商业应用和教育培训...
2025-01-18 新闻资讯
111

StructLDM:高质量、多样化三维数字人生成模型
StructLDM是一种从2D图像集合中生成3D人体的新型范式。它利用先进的深度学习技术和计算机视觉算法,从图像和视频中学习人体的高维表征,并通过结构化的自动解码器和隐空间扩散...
2025-01-16 新闻资讯
130

ViTPose:基于视觉变换器(ViT)的人体姿态估计模型
ViTPose 是一种基于视觉变换器(ViT)的人体姿态估计模型。视觉变换器最初由 Google Research 提出,用于图像分类任务,其核心思想是将图像分割成多个小块(patch),然后通过自注...
2025-01-15 新闻资讯
122

AudioLCM:浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型
AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13 新闻资讯
129

LongWriter:清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09 新闻资讯
143

LatentSync:字节跳动开源的视频人物唇部动作与音频精准同步模型
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06 新闻资讯
221