NLP

Pasted image 20230625200235.png

文本预处理

如何衡量模型的质量

一个更好的语言模型应该能让我们更准确地预测下一个词元，所以我们可以通过一个序列中所有的 $n$ 个词元的交叉熵损失的平均值来衡量：
Pasted image 20231011192937.png
由于历史原因，自然语言处理的科学家更喜欢使用一个叫做 困惑度（perplexity）的量，是上式的指数：
Pasted image 20231011193412.png
困惑度的最好的理解是“下一个词元的可供选择的方案数的调和平均数”。我们看看一些案例。

在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为 $1$ 。
在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。