基础函数

January 21, 2026 • 130 words • 1 min

Pandas

学习Pandas的第一步，了解其基本的函数与定义

Series

Series 是 Pandas 中的一个核心数据结构，类似于一个一维的数组，具有数据和索引。

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

Series特点：

一维数组：Series中的每个元素都有一个对应的索引值。
索引：每个数据元素都可以通过标签（索引）来访问，默认情况下索引是从 0 开始的整数，但你也可以自定义索引。
数据类型：Series 可以容纳不同数据类型的元素，包括整数、浮点数、字符串、Python 对象等。
大小不变性：Series的大小在创建后是不变的，但可以通过某些操作（如 append 或 delete）来改变。
操作：Series支持各种操作，如数学运算、统计分析、字符串处理等。
缺失数据：Series可以包含缺失数据，Pandas 使用NaN（Not a Number）来表示缺失或无值。
自动对齐：当对多个 Series 进行运算时，Pandas 会自动根据索引对齐数据，这使得数据处理更加高效。
一个Series 对象，可以为其指定索引（Index）、名称（Name）以及值（Values）：

Series方法

DataFrame

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

参数说明：

data：DataFrame 的数据部分，可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象。如果不提供此参数，则创建一个空的 DataFrame。
index：DataFrame 的行索引，用于标识每行数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
columns：DataFrame 的列索引，用于标识每列数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
dtype：指定 DataFrame 的数据类型。可以是 NumPy 的数据类型，例如 np.int64、np.float64 等。如果不提供此参数，则根据数据自动推断数据类型。
copy：是否复制数据。默认为 False，表示不复制数据。如果设置为 True，则复制输入的数据。

DataFrame由index，key，value组成

DataFrame 特点：

二维结构： DataFrame 是一个二维表格，可以被看作是一个 Excel 电子表格或 SQL 表，具有行和列。可以将其视为多个 Series 对象组成的字典。
列的数据类型：不同的列可以包含不同的数据类型，例如整数、浮点数、字符串或 Python 对象等。
索引：DataFrame 可以拥有行索引和列索引，类似于 Excel 中的行号和列标。
大小可变：可以添加和删除列，类似于 Python 中的字典。
自动对齐：在进行算术运算或数据对齐操作时，DataFrame 会自动对齐索引。
处理缺失数据：DataFrame 可以包含缺失数据，Pandas 使用 NaN（Not a Number）来表示。
数据操作：支持数据切片、索引、子集分割等操作。
时间序列支持：DataFrame 对时间序列数据有特别的支持，可以轻松地进行时间数据的切片、索引和操作。
丰富的数据访问功能：通过 .loc、.iloc 和 .query(使用sql风格的语法查询) 方法，可以灵活地访问和筛选数据。
灵活的数据处理功能：包括数据合并、重塑、透视、分组和聚合等。
数据可视化：虽然DataFrame 本身不是可视化工具，但它可以与Matplotlib 或 Seaborn 等可视化库结合使用，进行数据可视化。
高效的数据输入输出：可以方便地读取和写入数据，支持多种格式，如 CSV、Excel、SQL 数据库和 HDF5 格式。
描述性统计：提供了一系列方法来计算描述性统计数据，如 .describe()、.mean()、.sum() 等。
灵活的数据对齐和集成：可以轻松地与其他 DataFrame 或 Series 对象进行合并、连接或更新操作。
转换功能：可以对数据集中的值进行转换，例如使用 .apply() 方法应用自定义函数。
滚动窗口和时间序列分析：支持对数据集进行滚动窗口统计和时间序列分析。

DataFrame方法

pd.set_option
('display.unicode.east_asian_width',True)#
设置输出对齐