通过扫描或照片对文档进行数字化处理时,错误的设置或不良的条件可能会影响图像质量 。在识别的情况下,这可能导致表结构损坏 。某些图标的处理结果可能只是有轻微的瑕疵,甚至只是一些小孔,但是无法将其识别为连贯的系统 。有时在创建在单元格时,表的某些侧面可能也没有线的存在 。表和单元格类型多种多样,因此通常所提出的代码可能并不适合所有情况 。尽管如此 , 如果我们能对提取的表格进行少量修改,大部分程序仍然可以使用 。大多数表格识别算法是基于表格的结构 。由于没有完整的边线会使一些单元格无法被识别,导致不良的识别率,因此我们需要想办法修复这些丢失的线段 。
首先,我们需要导入OpenCV和NumPy 。
import cv2import numpy as np
然后,我们需要加载包含表的图像/文档 。如果是整个文档,并且表格周围有文字,则需要首先识别该表格,然后从图像提取出表格的部分 。
# Load the imageimage = cv2.imread(‘/Users/marius/Desktop/holes.png’, -1)
如果大家在输入图像使看到的第二行中的单元格线未完全连接 。在表识别中,由于单元格不是封闭的框,因此算法将无法识别和考虑第二行 。本文提出的解决方案不仅适用于这种情况 。它也适用于表格中的其他虚线或孔 。现在 , 我们需要获取图像的大?。ǜ叨群涂矶龋┎⒔浯娲⒃诒淞縣ei和wid中 。
(hei,wid,_) = image.shape
下一步是通过高斯滤镜进行灰度和模糊处理,这有助于识别线条 。
#Grayscale and blur the imagegray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)blur = cv2.GaussianBlur(gray, (3,3), 0)
然后,我们需要对图像进行阈值处理 。
#Threshold the imagethresh = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY_INVcv2.THRESH_OTSU)[1]
【基于OpenCV修复表格缺失的轮廓】然后使用OpenCV的findContours算法获取所有轮廓的位置 。对于所有轮廓,将绘制一个边界矩形以创建表格的框/单元格 。然后将这些框与四个值x,y , 宽度,高度一起存储在列表框中 。
#Retrieve contours contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)#Create box-listbox = []# Get position (x,y), width and height for every contour for c in contours:x, y, w, h = cv2.boundingRect(c)box.append([x,y,w,h])
然后将所有高度,宽度 , x和y分别存储在列表中,并计算最小高度 , 宽度以及x和y 。此外,最大y和x是也是必需的 。
#Create separate lists for all valuesheights=[]widths=[]xs=[]ys=[]#Store values in listsfor b in box:heights.append(b[3])widths.append(b[2])xs.append(b[0])ys.append(b[1])#Retrieve minimum and maximum of listsmin_height = np.min(heights)min_width = np.min(widths)min_x = np.min(xs)min_y = np.min(ys)max_y = np.max(ys)max_x = np.max(xs)
现在使用存储的值来了解表的位置 。最小y值可用于获取表的最上一行 , 该行可以视为表的起点 。x的最小值是表格的左边缘 。要获得近似大小,我们需要检索最大y值,该值是表底部的单元格或行 。最后一行的y值表示单元格的上边缘 , 而不是单元格的底部 。要考虑单元格和表格的整体大?。匦虢詈笠恍械牡ピ窀叨燃拥阶畲髖以检索表格的完整高度 。最大的x将是表格的最后一列 , 并且连续地是表格的最右边的单元格/行 。x值是每个单元格的左边缘,并且连续 。
#Retrieve height where y is maximum (edge at bottom, last row of table)for b in box:if b[1] == max_y:max_y_height = b[3]#Retrieve width where x is maximum (rightmost edge, last column of table)for b in box:if b[0] == max_x:max_x_width = b[2]
在下一步中 , 将提取所有水平线和垂直线并分别存储 。这是通过创建阈值并应用形态运算的内核来完成的 。水平内核的大小为(50,1) 。大家可以根据图像的大小来调整大小 。垂直内核的大小为(1,50) 。形态学操作根据检测到的结构的几何形状进行转换 。扩张是应用最广泛、最基本的形态学操作之一 。如果内核下的至少一个像素为白色,则原始图像中正在查看的像素将被视为白色 。因此 , 白色区域变大了 。请注意,由于反转,背景为黑色 , 前景为白色,这意味着表格行当前为白色 。扩张可以看作是最重要的步骤 。现在修复孔和虚线,为了进一步识别表,将考虑所有单元格 。
# Obtain horizontal lines maskhorizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (50,1))horizontal_mask = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, horizontal_kernel, iterations=1)horizontal_mask = cv2.dilate(horizontal_mask, horizontal_kernel, iterations=9)# Obtain vertical lines maskvertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1,50))vertical_mask = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, vertical_kernel, iterations=1)vertical_mask= cv2.dilate(vertical_mask, vertical_kernel, iterations=9)
然后使用OpenCV的bitwise_or操作将水平和垂直两个蒙版合并到一张表中 。要检索原始的前后前景,可通过从255中减去cv2.bitwise_or来反转图像 。
# Bitwise-and masks togetherresult = 255 — cv2.bitwise_or(vertical_mask, horizontal_mask)
如果桌子被文本包围而不是独自站立(在我的示例中 , 它没有被包围),我们将其切出并放在白色背景上 。现在我们需要前面检索的表的大小 。我们使用最小y(顶部的边缘),最大y最大y单元格的高度(底部的边缘),最小x(即左边缘)和最大x最大x个像元的宽度(这是右边缘) 。然后将图像裁剪为表格的大小 。将创建文档原始大小的新背景,并完全用白色像素填充 。检索图像的中心,将修复的表格与白色背景合并,并设置在图像的中心 。
#Cropping the image to the table sizecrop_img = result[(min_y 5):(max_y max_y_height), (min_x):(max_x max_x_width 5)]#Creating a new image and filling it with white backgroundimg_white = np.zeros((hei, wid), np.uint8)img_white[:, 0:wid] = (255)#Retrieve the coordinates of the center of the imagex_offset = int((wid — crop_img.shape[1])/2)y_offset = int((hei — crop_img.shape[0])/2)#Placing the cropped and repaired table into the white backgroundimg_white[ y_offset:y_offset crop_img.shape[0], x_offset:x_offset crop_img.shape[1]] = crop_img#Viewing the resultcv2.imshow(‘Result’, img_white)cv2.waitKey()
这就是结果 。该方法可用于表中的虚线,间隙和孔的多种类型 。结果是进一步进行表格识别的基?。杂诎谋镜谋?nbsp;, 仍然有必要将包含表的原始图像与数据与具有修复孔的最终图像合并 。