Python中怎么利用Pandas处理复杂的Excel数据

本篇文章为大家展示了Python 中怎么利用Pandas处理复杂的Excel数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

成都创新互联公司专注于景洪企业网站建设,响应式网站建设,电子商务商城网站建设。景洪网站建设公司,为景洪等地区提供建站服务。全流程定制网站建设，专业设计，全程项目跟踪，成都创新互联公司专业和态度为您提供的服务

问题缘起

pandas read_excel函数在读取Excel工作表方面做得很好。但是，如果数据不是从头开始，不是从单元格A1开始的连续表格，则结果会不是很好。比如下面一个销售表，使用read_excel读取：

Python 中怎么利用Pandas处理复杂的Excel数据

读取的结果如下所示：

Python 中怎么利用Pandas处理复杂的Excel数据

结果中标题表头变成了Unnamed，而且还会额外增加很多职位NaN列，字段为空的列的值也会被转换为NaN，这显然不是我们所期望的。

header和usecols参数

对这样的非标准格式的表格，我们可以使用read_excel()的header和usecols参数来控制选择的需要读取的列。

import pandas as pd from pathlib import Path src_file = 'sales.xlsx'

Python 中怎么利用Pandas处理复杂的Excel数据

结果的DataFrame包含了我们期望的数据。

代码中使用header和usecols参数设定了用于显示标题的列和需要读取的字段：

header参数为一个整数，从0开始索引，其为选择的行，比如1表示Excel中的第2行。
usecols参数设定选择的Excel列范围范围(A-…)，例如，B:F表示读取B到F列。

在某些情况下，可能希望将列定义为数字列表。比如，可以定义整数列数：

df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])

这对对大型数据集(例如，每3列或仅偶数列)要遵循一定的数字模式，则这个参数方法会很有用。

usecols还可以设定从列名列表读取。比如上面的例子也可以这样写：

df = pd.read_excel( src_file, header=1, usecols=['item_type', 'order id', 'order date', 'state', 'priority'])

列顺序支持自由选择，这种命名列列表的方式实际中很有用。

usecols支持一个回调函数column_check，可通过该函数对数据进行处理。

下面是一个简单的示例：

def column_check(x):      if 'unnamed' in x.lower():            return False      if 'priority' in x.lower():           return False      if 'order' in x.lower():           return True     return True

df = pd.read_excel(src_file, header=1, usecols=column_check)

column_check按名称解析每列，每列通过定义True或False，来选择是否读取。

usecols也可以使用lambda表达式。下面的示例中定义的需要显示的字段列表。为了进行比较，通过将名称转换为小写来规范化。

cols_to_use = ['item_type', 'order id', 'order date', 'state', 'priority'] df = pd.read_excel(src_file, header=1, usecols=lambda x: x.lower() in cols_to_use)

回调函数为我们提供了许多灵活性，可以处理Excel文件的实际混乱情况。

关于read_exce函数更多参数可以查看官方文档，下面是一个总结表格：

Python 中怎么利用Pandas处理复杂的Excel数据

结合openpyxl

在某些情况下，数据甚至可能在Excel中变得更加复杂。在下面示例中，我们有一个ship_cost要读取的表。如果必须使用这样的文件，那么只用pandas函数和选项也很难做到。在这种情况下，可以直接使用openpyxl解析文件并将数据转换为pandas DataFrame。比如要读取下面示例的数据：

Python 中怎么利用Pandas处理复杂的Excel数据

from openpyxl import load_workbook import pandas as pd from pathlib import Path src_file = ' sales1.xlsx'

加载整个工作簿：

cc = load_workbook(filename = src_file)

查看所有工作表：

cc.sheetnames

['sales', 'shipping_rates']

要访问特定的工作表：

sheet = cc['shipping_rates']

要查看所有命名表的列表：

sheet.tables.keys()

dict_keys(['ship_cost'])

该键对应于Excel中分配给表的名称。这样就可以设定要读取的Excel范围：

lookup_table = sheet.tables['ship_cost']

lookup_table.ref

'C8:E16'

这样就获得了要加载的数据范围。最后将其转换为pandas DataFrame即可。遍历每一行并转换为DataFrame：

data = sheet[lookup_table.ref] rows_list = []  for row in data: cols = [] for col in row: cols.append(col.value) rows_list.append(cols)  df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])

结果数据框：

Python 中怎么利用Pandas处理复杂的Excel数据

上述内容就是Python 中怎么利用Pandas处理复杂的Excel数据，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

本文题目：Python中怎么利用Pandas处理复杂的Excel数据
URL链接：http://myzitong.com/article/jicpss.html

Python中怎么利用Pandas处理复杂的Excel数据

其他资讯