EXECL表格数据去重


EXECL表格数据去重

最近在整理题库,将题库转换成EXECL表格后,再配合Python写的检索脚本可以很直观的得到自己想要的信息 。唯一美中不足的是,表格内又重复题目,为了精简文件及浏览的直观性,使用Python写了一个EXECL相同行数据去重的脚本 。
脚本如下:
import pandas as pd# 读取Excel文件input_file = '需去重目录文件名.xlsx'df = pd.read_excel(input_file)# 删除重复行数据并保存到新文件output_file = '去重后需要保存的目录文件名.xlsx'df.drop_duplicates(inplace=True)df.to_excel(output_file, index=False)print(f'处理完成,去重后的文件保存在{output_file}中')
貌似这个是单一文件的处理方式 , 延伸想了想,针对目录内的所有EXECL文件进行批量去重,脚本如下:
【EXECL表格数据去重】import pandas as pdimport os# 获取当前目录下所有Excel文件excel_files = [f for f in os.listdir() if f.endswith('.xlsx') or f.endswith('.xls')]# 对每个Excel文件进行去重操作for f in excel_files:# 读取Excel文件到DataFramedf = pd.read_excel(f)# 进行去重操作df = df.drop_duplicates()# 保存去重后的Excel文件new_file_name = os.path.splitext(f)[0]'_去重后.xlsx'df.to_excel(
批量的处理的是对运行脚本的当前目录内所有EXECL表进行读取去重操作 。
如需指定目录,下次在说了 。
EXECL表格数据去重

EXECL表格数据去重

相关经验推荐