第六课笔记 | Notion

OpenCompass 大模型评测

主讲人曹茂松 OpenCompass 核心开发者

收获：本节课学习了大模型评测背景、OpenCompass简介，并在InternStudio平台实现了demo，并体验。

模型评测的三个关键问题如下：

Untitled

为什么需要做评测？

场景模型很多，需要做评测来建立一个公平的评价，也需要评测来知道模型的边界，从而进一步指导模型变得更强

Untitled

需要评测什么？

Untitled

大模型时代，需要评测维度很多，比如知识语言推理、长文本生成、Agent使用工具能力、以及多轮对话能力、情感、认知，以及各个垂直领域如法律、医疗等。

如何去评测大语言模型？

Untitled

模型评价模型（主观能力）

Untitled

通过prompt engerniering来测试模型对prompt的鲁棒性，对所有prompt都能回答正确，才是具有鲁棒性的。

Untitled