OpenCompass 大模型评测

主讲人 曹茂松 OpenCompass 核心开发者

收获:本节课学习了大模型评测背景OpenCompass简介,并在InternStudio平台实现了demo,并体验。

1.1 大模型评测背景

模型评测的三个关键问题如下:

Untitled

为什么需要做评测?

场景模型很多,需要做评测来建立一个公平的评价,也需要评测来知道模型的边界,从而进一步指导模型变得更强

Untitled

需要评测什么?

Untitled

大模型时代,需要评测维度很多,比如知识语言推理、长文本生成、Agent使用工具能力、以及多轮对话能力、情感、认知,以及各个垂直领域如法律、医疗等。

如何去评测大语言模型?

Untitled

Untitled

模型评价模型(主观能力)

Untitled

通过prompt engerniering来测试模型对prompt的鲁棒性,对所有prompt都能回答正确,才是具有鲁棒性的。

Untitled