0%

[DSU&阿里云天池] Python训练营 Task 4

数据载入

pd.read_csv

1
pd.read_csv(filepath, sep, names)
  • filepath:待读取文件的路径
  • sep:CSV 文件的 delimiter
  • names:列名的列表

    df.merge

    1
    df.merge(left, right)
  • left, right:合并的两个数据框

    df.head

    1
    df.head(n=5)
    查看最上面的 n 行内容。

数据载入的要点:需要将所需数据合并在一起。

数据清洗

pd.DataFrame

1
pd.DataFrame(df, columes)

df:目标数据框
columns:提取的列

df.shape

获得数据框的维度

df.info()

打印列表的简单信息

df.fillna

1
df.fillna(value, inplace)
  • value:用来填补缺失值的值
  • inplace:是否在原地完成操作

    df.satype

    1
    df.astype(dtype)
  • dtype:指定的数据类型

    df.describe

    打印数据框的统计信息

数据清洗的要点:检查数据是否有缺失值,如果有,需要采取相应的行为(填补或删除)。

数据分析

df.groupby

1
df.groupby(by)
  • by:确定整合成一组的标准

    df.sum

    求和

    df.sort_values

    ascending)
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    ```
    - `by`:排序依据的行或列
    - `ascending`:`True` 则升序排列
    ## `df.value_counts`
    返回不同行的计数
    ***
    **数据分析的要点**:通过合并分组、排序、计数等手段,获得数据的信息。
    # 数据可视化
    ## `df.plot(kind)`
    ```py
    df.plot(kind)
    kind:可视化类型
  • line:折线图
  • bar:柱状图
  • hist:直方图
  • box:箱型图
  • kde:密度图
  • pie:pie 图
  • scatter:散点图

数据可视化的要点:根据不同的数据结构和需求选择合适的可视化方法。

欢迎关注我的其它发布渠道