怎么用python将word转成html python操作word文档

经验直达:

  • python操作word文档
  • 怎么用python将word转成html
  • 如何用python读取word

一、python操作word文档


>>> app=my.Office.Word.GetInstance()
>>> doc=app.Documents[0]
>>> table=doc.Tables[1]
>>> table.Cell(1,1).Select()
>>> app.Selection.MoveDown(Unit=5, Count=2, Extend=1)
>>> app.Selection.Cells.Merge()
>>>
  1. my.Office.Word.GetInstance()用win32com得到Word的Application对象的实例

  2. 我所使用的样本word文件中包含两个Table第二个Table是想要修改的
  3. table.Cell(1,1).Select()用于选中这个样表的第一个单元格
  4. app.Selection.MoveDown用于获得向下多选取3个单元格
  5. app.Selection.Cells.Merge()用于执行合并工作

怎么用python将word转成html python操作word文档


怎么用python将word转成html python操作word文档


怎么用python将word转成html python操作word文档


怎么用python将word转成html python操作word文档



二、怎么用python将word转成html


#coding=utf-8

#文件名:
#BatchConverWords2Html.py
#说明:
#批量将一个文件夹下的所有.doc/.docx文件转为.html文件,需要安装对应的win32模块
#调用方式:进入源程序目录,命令:python BatchConverWords2Html.py RootDir

from win32com import client as wc
import os
word = wc.Dispatch('Word.Application')

def wordsToHtml(dir):

for path, subdirs, files in os.walk(dir):
for wordFile in files:
wordFullName = os.path.join(path, wordFile)
#print "word:"wordFullName
doc = word.Documents.Open(wordFullName)

wordFile2 = unicode(wordFile, "gbk")
dotIndex = wordFile2.rfind(".")
if(dotIndex == -1):
print "********************ERROR: 未取得后缀名!"

fileSuffix = wordFile2[(dotIndex1) : ]
if(fileSuffix == "doc" or fileSuffix == "docx"):
fileName = wordFile2[ : dotIndex]
htmlName = fileName".html"
htmlFullName = os.path.join(unicode(path, "gbk"), htmlName)
#htmlFullName = unicode(path, "gbk")"\"htmlName
print "generate html:"htmlFullName
doc.SaveAs(htmlFullName, 10)
doc.Close()

word.Quit()
print ""
print "Finished!"

if __name__ == '__main__':
import sys
if len(sys.argv) != 2:
print "Usage: python funcName.py rootdir"
sys.exit(100)
wordsToHtml(sys.argv[1])运行结果就是在rootdir目录下的所有word文档转为简洁版的html网页文件,生成的文件存在原word同目录下,生成 xxx.files 文件夹 。


三、如何用python读取word


使用Python的内部方法open()读取文本文件
try:
f=open('/file','r')
print(f.read())
finally:
if f:
f.close()
如果读取word文档推荐使用第三方插件,python-docx 可以在官网上下载
使用方式
【怎么用python将word转成html python操作word文档】# -*- coding: cp936 -*-
import docx
document = docx.Document(文件路径)
docText = 'nn'.join([
paragraph.text.encode('utf-8') for paragraph in document.paragraphs
])
print docText

相关经验推荐