Whisper-NER是aiOla基于OpenAI的开源语音识别模型Whisper开发的一款高级音频转录模型。它不仅继承了Whisper在多语言、实时处理及高准确度方面的卓越性能,还创新性地加入了敏...
2024-11-21
新闻资讯
110
近日,Kimi智能助手宣布推出了一款全新的数学推理模型——k0-math。它采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,...
2024-11-19
新闻资讯
110
近日,字节跳动宣布推出两款全新的视频生成模型——PixelDance和Seaweed,并通过其即梦AI平台向公众免费开放使用。这一举措旨在助力设计师、影视制作人员及动画创作者等专业人...
2024-11-18
新闻资讯
116
昆仑万维科技股份有限公司近日宣布,其最新研发的天工大模型4.0O1版(英文名:Skywork O1)将于2024年11月27日正式启动邀请测试。这款模型是国内首款具备中文逻辑推理能力的o1模...
2024-11-18
新闻资讯
108
阿里通义实验室今日宣布推出一项创新功能——“代码模式”,这一突破性工具使得即使没有编程背景的用户也能通过简单的日常语言指令快速生成各种应用程序。用户现在只需访问通...
2024-11-15
新闻资讯
120
在人工智能技术飞速发展的今天,实时语音交互已成为人们日常生活的重要组成部分。Ultravox,一款由FixieAI公司开发的创新性多模态大语言模型,旨在提供一个封闭源模型如 GPT-...
2024-11-15
新闻资讯
117
TinyTroupe是微软推出的一款基于大型语言模型(LLM)的多智能体人格模拟工具,旨在为企业提供全新的视角,以更好地理解和预测市场反应,优化产品设计和营销策略。该工具通过模...
2024-11-14
新闻资讯
160
Fashion-VDM,全称为Fashion Video Diffusion Model,是一种基于视频扩散模型的虚拟试衣技术。它能够根据用户提供的衣服图片和个人视频,生成穿着该衣服的高质量试衣视频。这...
2024-11-14
新闻资讯
119
Hallo是一项由复旦大学、百度公司、苏黎世联邦理工学院和南京大学联合开发的革命性AI技术。这项技术通过用户上传的照片,结合语音输入,能够生成高度逼真且动态的肖像动画,实...
2024-11-13
新闻资讯
111
Bark 是由 Suno 开发的一款基于变压器架构的先进 TTA 模型,它不仅能够生成高度逼真的多语言语音,还能生成音乐、背景噪音和简单的声音效果,甚至非语言交流如笑声、叹息和哭...
2024-11-12
新闻资讯
124
Outfit Anyone 是由阿里巴巴集团智能计算研究院推出的一款基于人工智能技术的开源AI虚拟试衣项目,通过先进的计算机视觉和深度学习技术,用户可以上传自己的照片或选择预设的...
2024-11-11
新闻资讯
148
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10
新闻资讯
123
Fluid是由Google DeepMind和MIT联合开发的一款先进的文本到图像生成模型。它通过自回归生成方法,结合连续标记和随机生成顺序的技术,实现了在视觉质量和评估性能上的显著提升...
2024-11-08
新闻资讯
128
CodeFormer 是由南洋理工大学-商汤科技联合实验室在 NeurIPS 2022 上发布的一款先进的人脸图像修复和增强工具。它基于深度学习技术,旨在解决人脸图像中的各种退化问题,如模...
2024-11-07
新闻资讯
185
Seed-ASR是字节跳动推出的一款基于大型语言模型(LLM)的语音识别模型。它采用了音频条件下的大型语言模型(AcLLM)框架,通过输入连续的语音表示和上下文信息到LLM中,利用L...
2024-11-05
新闻资讯
129