我们已经了解了 PyTorch 的基本操作和功能,现在让我们实践一下。自从 transformer 横空出世以后,在 NLP 领域有”大一统“ 的趋势。但 transformer 的本质是什么?transformer 的本质是一个能够有效提取语义信息的词嵌入生成器,它比前辈 word2vec、GloVe 等等能够更有效地提取词语的语义信息,所以以 transformer 生成的词嵌入可以有 SOTA(state-of-the-art,最高水平)的性能。这等于电脑可以更好地理解文本中每个词语的意思,理解了每个词语的意思自然就可以更好地理解文本的整体意思。所以 transformer 只是取代了以前用的 Embedding 层,根据具体的任务的不同还可以接上 CNN、RNN 等层。
本文及下一篇文章中,我们将使用 PyTorch,TorchText 和 transformers 库里的 Bert 预训练模型来进行一个基本的情感分类任务:IMDB 影片评论的情感分类。