在Python中处理表格数据,有几个非常流行且功能强大的库。以下是一些最常用的库及其示例代码:
1. Pandas
Pandas是一个开放源代码的、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。
安装Pandas
示例代码:读取CSV文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
| import pandas as pd
# 读取CSV文件
df = pd.read_csv('pokemon.csv')
# 显示前五行数据
print(df.head())
# 计算某列的平均值
print("Average of column:", df['Speed'].mean())
# 数据筛选
filtered_df = df[df['Speed'] > 10]
# 将更改后的DataFrame保存到新的CSV文件
filtered_df.to_csv('filtered_example.csv', index=False)
|
2. OpenPyXL
OpenPyXL是一个库,用于读取和写入Excel 2010 xlsx/xlsm/xltx/xltm文件。
安装OpenPyXL
示例代码:读取Excel文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
| from openpyxl import load_workbook
# 加载一个现有的工作簿
wb = load_workbook('example.xlsx')
# 获取活动的工作表
sheet = wb.active
# 读取A1单元格的值
print(sheet['A1'].value)
# 修改B2单元格的值
sheet['B2'] = 42
# 保存工作簿
wb.save('modified_example.xlsx')
|
3. CSV
Python标准库中的CSV模块提供了读写CSV文件的功能。
示例代码:读取CSV文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
| import csv
# 打开CSV文件
with open('example.csv', mode='r', encoding='utf-8') as file:
reader = csv.reader(file)
# 遍历每一行
for row in reader:
print(row)
# 写入CSV文件
with open('output.csv', mode='w', encoding='utf-8', newline='') as file:
writer = csv.writer(file)
writer.writerow(['Name', 'Age', 'City'])
writer.writerow(['Alice', '24', 'New York'])
|
4. xlrd/xlwt
这两个库通常一起使用,xlrd用于读取老版本的Excel文件(xls),而xlwt用于写入。
安装xlrd和xlwt
示例代码:读取xls文件
1
2
3
4
5
6
7
8
9
10
11
12
13
| import xlrd
# 打开工作簿
wb = xlrd.open_workbook('catering_sale.xls')
# 通过索引获取工作表
sheet = wb.sheet_by_index(0)
# 读取A1单元格的值
print(sheet.cell_value(0, 0))
# 获取行数和列数
print(sheet.nrows, sheet.ncols)
|
当选择库的时候,最好考虑你的具体需求,例如文件格式(CSV、Excel等)、数据大小、性能需求以及是否需要进行复杂的数据分析和操作。Pandas在数据分析方面提供了广泛的功能,而OpenPyXL、xlrd和xlwt则在处理Excel文件方面各有所长。标准库中的CSV模块足够处理基本的CSV文件操作。