Fugaku-LLM | 在富岳超算上训练大模型

5月11日报道，日本一个由多家企业和机构组成的联合研究团队昨日推出了Fugaku-LLM大型模型。该模型最大的特点是使用Arm架构超级计算机“富岳”进行训练。

Fugaku-LLM 模型的开发始于2023年5月，最初的合作伙伴包括富士通、东京工业大学、日本东北大学和日本理化学研究所（理研）。

2023年8月，另外三家合作伙伴加入了该模型研发计划，它们分别是名古屋大学、CyberAgent（也是游戏公司Cygames的母公司）和HPC-AI领域初创企业Kotoba Technologies。

在最新发布的新闻稿中，研究小组宣称他们充分发挥了富岳超级计算机的性能，成功将矩阵乘法的计算速度提高了6倍，同时通信速度也提升了3倍。证实大规模纯 CPU 超级计算机也能够用于大型模型的训练。。

Fugaku-LLM 模型的参数规模为 13亿。它是日本国内最大规模的语言模型。

它利用了13824个富岳超算节点对3800亿个Token进行训练。在其训练数据中，60%为日语，剩下的40%包括英语、数学、代码等其他部分。

据该模型的研究团队表示，Fugaku-LLM 模型能够在对话过程中自然地运用日语的敬语等特殊表达方式。

就考试成绩而言，这个模型在日语 MT-Bench 模型标准测试中的平均分是5.5，在基于日本语料资源的开放模型中排名第一，在人文社科类别中获得了9.18的高分。

Fugaku-LLM模型目前已在GitHub和Hugging Face平台上公开，遵循许可协议的情况下，外部研究人员和工程师可以将该模型用于学术和商业用途。

相关问题