[NLP] 新手的第一个 NLP 项目：文本分类（2）

发表于 2020-08-07

现在数据已经准备就绪，可以构建模型了。

论文里使用了两个词嵌入：随模型进行训练的词嵌入和 Google 预训练好的 Word2Vec 词嵌入。本文里为了直观，没有采用预训练的词嵌入。

构建模型

论文里使用了三个卷积核分别为 3、4、5 的二维卷积层，拼接后经过一个范围为 4 的池化层。最后经过一个全连接层，经过 sigmoid 函数处理后输出。

发表于 2020-08-01 更新于 2020-08-07

从终端任务来说，NLP 任务有文本分类、文本生成、翻译、文本摘要等等，其中文本分类是一个比较基础的任务。所以让我们从文本分类开始练习，从最简单的模型开始做起，然后尽量一步步提高它的性能。

文本分类有主题分类和感情分类两种。其中感情分类又比主题分类更加简单一点，因为很多感情分类是二分类任务（主题分类其实也可以，但是一般很少只分两个主题），所以我们将使用 IMDB 电影评论数据集进行一个感情分类任务。

发表于 2020-08-01 更新于 2020-11-01

首先是载入预训练模型。

1
2
3

from transformers import BertTokenizer, BertModel

bert = BertModel.from_pretrained('bert-base-uncased')

我们使用 Bert 预训练词向量与 GRU 组成模型，然后接一个全连接层。我们需要使用 with torch.no_grad() 避免预训练词向量发生变化。