数据载入
pd.read_csv
1 | pd.read_csv(filepath, sep, names) |
filepath
:待读取文件的路径sep
:CSV 文件的 delimiternames
:列名的列表df.merge
1
df.merge(left, right)
left
,right
:合并的两个数据框df.head
查看最上面的 n 行内容。1
df.head(n=5)
数据载入的要点:需要将所需数据合并在一起。
数据清洗
pd.DataFrame
1 | pd.DataFrame(df, columes) |
df
:目标数据框columns
:提取的列
df.shape
获得数据框的维度
df.info()
打印列表的简单信息
df.fillna
1 | df.fillna(value, inplace) |
数据清洗的要点:检查数据是否有缺失值,如果有,需要采取相应的行为(填补或删除)。
数据分析
df.groupby
1 | df.groupby(by) |
by
:确定整合成一组的标准
求和df.sum
df.sort_values
ascending) 1
2
3
4
5
6
7
8
9
10
11```
- `by`:排序依据的行或列
- `ascending`:`True` 则升序排列
## `df.value_counts`
返回不同行的计数
***
**数据分析的要点**:通过合并分组、排序、计数等手段,获得数据的信息。
# 数据可视化
## `df.plot(kind)`
```py
df.plot(kind)kind
:可视化类型line
:折线图bar
:柱状图hist
:直方图box
:箱型图kde
:密度图pie
:pie 图scatter
:散点图
数据可视化的要点:根据不同的数据结构和需求选择合适的可视化方法。