0%

现在数据已经准备就绪,可以构建模型了。

本文的模型参考了论文 《Convolutional Neural Networks for Sentence Classification》,原文代码在此

论文里使用了两个词嵌入:随模型进行训练的词嵌入和 Google 预训练好的 Word2Vec 词嵌入。本文里为了直观,没有采用预训练的词嵌入。

构建模型

论文里使用了三个卷积核分别为 3、4、5 的二维卷积层,拼接后经过一个范围为 4 的池化层。最后经过一个全连接层,经过 sigmoid 函数处理后输出。

阅读全文 »

从终端任务来说,NLP 任务有文本分类、文本生成、翻译、文本摘要等等,其中文本分类是一个比较基础的任务。所以让我们从文本分类开始练习,从最简单的模型开始做起,然后尽量一步步提高它的性能。

文本分类有主题分类和感情分类两种。其中感情分类又比主题分类更加简单一点,因为很多感情分类是二分类任务(主题分类其实也可以,但是一般很少只分两个主题),所以我们将使用 IMDB 电影评论数据集进行一个感情分类任务。

阅读全文 »