天工SkyMusic音乐大模型开启公测

来源:IT之家圈子:AI前沿 2024-05-10 12:54:18 435阅读 举报

4月17日,昆仑万维公司宣布,其天工3.0大型模型性能有显著提升。此外,旗下的天工SkyMusic音乐大型模型也已经今天向全社会开放公测。

天工 3.0 具有 4000 亿个参数,已经超越了 Grok-1 的 3140 亿参数规模, 全球最大的开源动态经济模型在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等方面,天工 3.0 的性能有了显著提升,数学 / 推理 / 代码 / 文创能力的提升超过了30%。此外,天工 3.0 还新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多个 AI 功能。

天工 3.0 模型参数超越 Grok-1
▲ 天工 3.0 模型的参数优于 Grok-1

天工 3.0 旗下的音乐大型模型天工 SkyMusic 正式向全社会开放公测。昆仑万维表示,在人声与背景音乐音质、人声表现自然度以及发音清晰度等方面,天工 SkyMusic 明显领先竞争对手。 超越Suno V3的综合性能获得音乐领域的最先进模型(State of the art model,即在当前研究中表现最佳的模型)。

SkyMusic音乐平台采用Sora模型架构,其中Large-scale Transformer负责作曲,以学习音乐片段之间的关系,确保音乐可控性。同时,Diffusion Transformer负责演唱,通过LDM技术将音乐片段转换为高质量音频,从而支持音乐生成。 80秒的歌曲,采样率为44100Hz,是立体声双声道。

根据介绍,天工SkyMusic具有以下特征:

  • AI创作的高品质音乐:生成80秒长,采样率为44100Hz,立体声双声道的AI歌曲。
  • 人声表现出“拟声性很高”:中文水平非常出色,发音清晰且没有杂音。
  • 歌曲歌词控制:生成的歌曲能够清晰表现出不同歌词部分的情感变化。
  • 多种音乐类型:包括说唱、民谣、放克、古风、电子等。
  • 音乐智能表现:可以掌握颤音、歌剧、吟唱、男女对唱等多种歌唱技巧,还可自动和声。
  • 参考音乐生成:用户上传自己的参考音乐,系统将生成风格和歌声类似的新歌曲。
  • 生成地方口音音乐:支持广东话、四川话、北京话等多种方言

昆仑万维是中国互联网平台出海的公司,专注于海外市场超过十年,业务范围涵盖信息传播、社交、娱乐、虚拟宇宙、游戏和AIGC等多个领域。公司旗下拥有AGI、AIGC、海外信息传播与虚拟宇宙、投资等三大业务板块,市场覆盖中国、东南亚、非洲、中东、北美、南美、欧洲等地区。截至目前,全球月活跃用户超过4亿,海外收入占比达84%。


合作联络微:vapehome
链接:https://www.aiddithome.com/p/6d067b31154f6.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”
AI玩家论坛社区

登录 后发表评论
0条评论
还没有人评论过~