Transformer 进阶:拥抱预训练模型,迈向实际应用
在现实世界的 NLP 应用中,我们很少从零开始训练一个大型的 Transformer 模型。主流的做法是利用预训练模型 (Pre-trained Models),并在特定任务上进行微调 (Fine-tuning)。
本篇博客,我们将:
- 介绍预训练模型和微调的概念。
- 学习如何使用强大的 Hugging Face Transformers 库来加载预训练的 Decoder-only 模型(如 GPT-2)。
- 演示如何使用这些加载的模型进行基本的文本生成。
- 简单介绍大型语言模型 (LLMs) 的概念。
- 简要提及文本生成的一些评估方法。
让我们看看如何站在巨人的肩膀上进行文本生成!
1. 预训练模型和微调:为什么以及如何?
预训练 (Pre-training)
你可以把预训练想象成让模型去上“大学”,学习通识教育。
研究机构或大型科技公司会花费巨大的计算资源,使用海量的文本数据(来自互联网、书籍等),训练一个非常大的 Transformer 模型(通常是 Decoder-only 的语言模型)。训练任务通常就是我们之前讲的语言模型任务:预测下一个 token。
通过在如此庞大的语料库上进行预