NLP

Pasted image 20230625200235.png

文本预处理

文本预处理

如何衡量模型的质量

一个更好的语言模型应该能让我们更准确地预测下一个词元,所以我们可以通过一个序列中所有的 n 个词元的交叉熵损失的平均值来衡量:
Pasted image 20231011192937.png
由于历史原因,自然语言处理的科学家更喜欢使用一个叫做 困惑度(perplexity)的量,是上式的指数:
Pasted image 20231011193412.png
困惑度的最好的理解是“下一个词元的可供选择的方案数的调和平均数”。 我们看看一些案例。