0%

文本表示方法 Part1

在机器学习算法的训练过程中,假设给定 $N$ 个样本,每个样本有 $M$ 个特征,这样组成了 $N × M$ 的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作 $hight×width×3$的特征图,一个三维的矩阵来进入计算机进行计算。

阅读全文 »

数据读取

1
2
3
import pandas as pd
train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=100)
train_df.head()
label text
0 2 2967 6758 339 2021 1854 3731 4109 3792 4149 15…
1 11 4464 486 6352 5619 2465 4802 1452 3137 5778 54…
2 3 7346 4068 5074 3747 5681 6093 1777 2226 7354 6…
3 2 7159 948 4866 2109 5520 2490 211 3956 5520 549…
4 3 3646 3055 3055 2490 4659 6065 3370 5814 2465 5…
阅读全文 »