常用的Pandas函数整理
读取数据
pd.read_csv
(filename) #
读取 CSV 文件;
pd.read_excel(filename) #读取
Excel 文件;
pd.read_sql(query, connection_object)
#从 SQL 数据库读取数据;
pd.read_json(json_string) #从 JSON 字符串中读取数据;
pd.read_html(url) #从 HTML 页面中读取数据。
查看数据
df.head
(n) #
显示前 n 行数据;
df.tail(n) #显示后 n 行数据;
df.info() #显示数据的信息,包括列名、数据类型、缺失值等;
df.describe() #显示数据的基本统计信息,包括均值、方差、最大值、最小值等;
df.shape #显示数据的行数和列数。
数据清洗
df.dropna
() #
删除包含缺失值的行或列;
df.fillna(value) #将缺失值替换为指定的值;
df.replace(old_value, new_value) #将指定值替换为新值;
df.duplicated() #检查是否有重复的数据;
df.drop_duplicates() #删除重复的数据。
数据选择与切片
df
[column_name] #
选择指定的列;
df.loc[row_index, column_name] #通过标签选择数据;
df.iloc[row_index, column_index] #通过位置选择数据;
df.ix[row_index, column_name] #通过标签或位置选择数据;
df.filter(items=[column_name1, column_name2]) #选择指定的列;
df.filter(regex='regex') #选择列名匹配正则表达式的列;
df.sample(n) #随机选择 n 行数据。
数据排序
df.sort_values
(column_name) #
按照指定列的值排序;
df.sort_values([column_name1, column_name2],
ascending=[True, False]) #按照多个列的值排序;
df.sort_index() #按照索引排序。
数据分组与聚合
df.groupby
(column_name) #
按照指定列进行分组;
df.aggregate(function_name)
#对分组后的数据进行聚合操作;
df.pivot_table(values, index, columns, aggfunc) #生成透视表。
数据合并
pd.concat
([df1, df2])
#
将多个数据框按照行或列进行合并;
pd.merge(df1, df2, on=column_name)
#按照指定列将两个数据框进行合并。
数据选择和筛选
df.loc
[row_indexer, column_indexer] #
按标签选择行和列。
df.iloc[row_indexer, column_indexer] #按位置选择行和列。
df[df['column_name']
> value] #选择列中满足条件的行。
df.query('column_name >
value') #使用字符串表达式选择列中满足条件的行。
数据统计
df.describe
() #
计算基本统计信息,如均值、标准差、最小值、最大值等。
df.mean() #计算每列的平均值。
df.median() #计算每列的中位数。
df.mode() #计算每列的众数。
df.count() #计算每列非缺失值的数量。
自定义函数
应用函数到 DataFrame 或 Series 上
apply() 方法允许在 DataFrame 或 Series 上应用自定义函数,支持对行或列进行操作
参数
func 需要应用的函数
axis 默认为 0,表示按列应用;1 表示按行应用
raw 是否传递原始数据(默认为 False)
result_type 定义输出的类型,如 expand, reduce, broadcast
应用函数到DataFrame的每个元素上
applymap() 只能应用于 DataFrame,作用于 DataFrame 中的每个元素。
参数
func 需要应用的函数
应用函数到Series上
map() 可以对 Series 中的每个元素应用一个函数或一个映射关系
参数
arg 应用的函数,字典或 Series
计算相对时间内数据
使用 rolling() 和 expanding() 方法进行滚动和扩展窗口操作,常用于时间序列中的移动平均等计算
rolling() #
计算滚动窗口操作,常用于移动平均等
expanding() #计算扩展窗口操作,累计值