Fugaku-LLM | 在富岳超算上训练大模型

来源:IT之家圈子:AI前沿 2024-05-13 09:34:19 316阅读 举报

5月11日报道,日本一个由多家企业和机构组成的联合研究团队昨日推出了Fugaku-LLM大型模型。该模型最大的特点是使用Arm架构超级计算机“富岳”进行训练。

Fugaku-LLM 模型的开发始于2023年5月,最初的合作伙伴包括富士通、东京工业大学、日本东北大学和日本理化学研究所(理研)。

2023年8月,另外三家合作伙伴加入了该模型研发计划,它们分别是名古屋大学、CyberAgent(也是游戏公司Cygames的母公司)和HPC-AI领域初创企业Kotoba Technologies。

在最新发布的新闻稿中,研究小组宣称他们充分发挥了富岳超级计算机的性能,成功将矩阵乘法的计算速度提高了6倍,同时通信速度也提升了3倍。证实大规模纯 CPU 超级计算机也能够用于大型模型的训练。

Fugaku-LLM 模型的参数规模为 13亿。它是日本国内最大规模的语言模型。

它利用了13824个富岳超算节点对3800亿个Token进行训练。在其训练数据中,60%为日语,剩下的40%包括英语、数学、代码等其他部分。

据该模型的研究团队表示,Fugaku-LLM 模型能够在对话过程中自然地运用日语的敬语等特殊表达方式。

就考试成绩而言,这个模型在日语 MT-Bench 模型标准测试中的平均分是5.5,在基于日本语料资源的开放模型中排名第一,在人文社科类别中获得了9.18的高分。

Fugaku-LLM模型目前已在GitHub和Hugging Face平台上公开,遵循许可协议的情况下,外部研究人员和工程师可以将该模型用于学术和商业用途。


合作联络微:vapehome
链接:https://www.aiddithome.com/p/610c407f20f7e.html
版权归原作者所有,未经允许请勿转载。若此文章存在违规行为,您可以点击 “举报”

登录 后发表评论
0条评论
还没有人评论过~