当前位置: 首页 > news >正文

【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里?

根据你的需求,这里提供一套完整的Python解决方案,支持递归遍历子文件夹、提取Word文档内容(段落+表格),并整合到Excel中。以下是代码实现及详细说明:

一个单元格一个word的全部内容


完整代码

# -*- coding: utf-8 -*-
import os
from docx import Document
import pandas as pd
from tqdm import tqdm  # 需安装:pip install tqdmdef extract_word_content(doc_path):"""提取Word文档中的段落和表格内容"""try:doc = Document(doc_path)content = []# 提取段落文本for para in doc.paragraphs:if para.text.strip():content.append(('paragraph', para.text))# 提取表格内容(按行合并)for table in doc.tables:for row in table.rows:row_text = ' | '.join([cell.text.strip() for cell in row.cells])content.append(('table_row', row_text))return '\n'.join([f"[{type}] {text}" for type, text in content])except Exception as e:return f"Error reading file: {str(e)}"def process_folder(root_folder):"""遍历文件夹并提取所有Word文档"""data = []# 遍历所有子文件夹for root, _, files in os.walk(root_folder):# 筛选Word文件(兼容.doc和.docx)word_files = [f for f in files if f.lower().endswith(('.doc', '.docx'))]# 显示进度条(需安装tqdm)for file in tqdm(word_files, desc=f"Processing {os.path.basename(root)}"):file_path = os.path.join(root, file)content = extract_word_content(file_path)data.append({"文件名": file,"完整路径": file_path,"文件内容": content})return pd.DataFrame(data)if __name__ == "__main__":# 配置参数folder_path = r"C:\Users\esensoft\Desktop\报名推荐"  # 修改为实际路径output_excel = "汇总结果.xlsx"# 执行处理df = process_folder(folder_path)# 导出Excel(自动处理格式)with pd.ExcelWriter(output_excel, engine='openpyxl') as writer:df.to_excel(writer, index=False, sheet_name='文档汇总')# 自动调整列宽for column in df.columns:max_len = max(df[column].astype(str).map(len).max(), len(column))writer.sheets['文档汇总'].column_dimensions[writer.sheets['文档汇总'].cell(row=

相关文章:

  • C++模板学习(进阶)
  • 火山引擎实时语音合成WebSocket V3协议Python实现demo
  • 自动化测试基础知识总结
  • Oracle在ERP市场击败SAP
  • 单元测试学习笔记(一)
  • 金融数据分析(Python)个人学习笔记(12):网络爬虫
  • Python列表赋值的终极指南:性能与方法的艺术
  • Kafka 消息积压监控和报警配置的详细步骤
  • Open GL ES -> 模版测试,绘制SurfaceView中某个目标区域
  • 2.Spring MVC与WebFlux响应式编程
  • Ubuntu与OpenHarmony OS 5.0显示系统架构比较
  • Trae国内版怎么用?Trae IDE 内置 MCP 市场配置使用指南
  • 软考软件设计师考试情况与大纲概述
  • 从零开始构建微博爬虫与数据分析系统
  • 蓝桥杯 19.合根植物
  • JavaScript性能优化实战(2):DOM操作优化策略
  • 使用FreeRTOS解决单片机串口异步打印
  • Spark-Streaming
  • 第一章-语言基础\2.竞赛常用库函数\其他库函数
  • vite详细打包配置,包含性能优化、资源处理...
  • 陈冬评价神二十乘组:合,三头六臂;分,独当一面
  • 最高检发布知识产权检察白皮书,“知识产权检察厅”同日亮相
  • 董明珠卸任格力电器总裁,张伟接棒
  • 直播中抢镜“甲亢哥”的翁东华卸任!此前任文和友小龙虾公司董事
  • 旁白丨无罪后领到国家补偿,一位退休教师卸下了“包袱”
  • 西安雁塔区委书记王征拟任市领导班子副职,曾从浙江跨省调任陕西