HELM是斯坦福大学推出的Holistic Evaluation of Language Models(语言模型整体评估)大模型评测体系,包含场景、适配、指标三个模块。每次评测需指定场景、适配模型提示和一个或多个指标。评测范围涵盖英语,有7个指标,如准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务有问答、信息检索、摘要、文本分类等。
斯坦福大学推出的大模型评测体系
稳定可靠
稳定可靠