花解语

[DL] PyTorch 折桂 17：使用 TorchText 和 transformers 进行情感分类(1)

发表于 2020-06-10 更新于 2020-08-01

我们已经了解了 PyTorch 的基本操作和功能，现在让我们实践一下。自从 transformer 横空出世以后，在 NLP 领域有”大一统“ 的趋势。但 transformer 的本质是什么？transformer 的本质是一个能够有效提取语义信息的词嵌入生成器，它比前辈 word2vec、GloVe 等等能够更有效地提取词语的语义信息，所以以 transformer 生成的词嵌入可以有 SOTA（state-of-the-art，最高水平）的性能。这等于电脑可以更好地理解文本中每个词语的意思，理解了每个词语的意思自然就可以更好地理解文本的整体意思。所以 transformer 只是取代了以前用的 Embedding 层，根据具体的任务的不同还可以接上 CNN、RNN 等层。

本文及下一篇文章中，我们将使用 PyTorch，TorchText 和 transformers 库里的 Bert 预训练模型来进行一个基本的情感分类任务：IMDB 影片评论的情感分类。

阅读全文 »

[DL] PyTorch 折桂 16：transformers

发表于 2020-06-05 更新于 2020-06-17

严格意义上讲 transformers 并不是 PyTorch 的一部分，然而 transformers 与 PyTorch 或 TensorFlow 结合的太紧密了，而且可以把 transformers 看成是 PyTorch 或 TensorFlow 的延伸，所以也在这里一并讨论了。

阅读全文 »

[DL] PyTorch 折桂 15：TorchText

发表于 2020-06-04

TorchText 是 PyTorch 的一个功能包，主要提供文本数据读取、创建迭代器的的功能与语料库、词向量的信息，分别对应了 torchtext.data、torchtext.datasets 和 torchtext.vocab 三个子模块。本文参考了三篇文章。

阅读全文 »