1 year ago · aeb0dca2fb
--- a/cores/check_table.py
+++ b/cores/check_table.py
@@ -4,27 +4,26 @@ import numpy as np
 
															 class Table:
														
 
															     def __init__(self, html, img=[]):
														
 
															+        """
														
 
															+        表格类的初始化函数。
														
 
															+
														
 
															+        Parameters:
														
 
															+            html (str): 输入的HTML字符串。
														
 
															+            img (List): 输入的图像数组，默认为空列表。
														
 
															+        """
														
 
															         self.img = img
														
 
															         self.html = html
														
 
															-        self.html_arr = []
														
 
															-        self.total = 0
														
 
															-        self.empty = 0
														
 
															-
														
 
															-    # def get_body(self):
														
 
															-    #     try:
														
 
															-    #         res = self.html.split('<tbody>')[1]
														
 
															-    #     except Exception as r:
														
 
															-    #         print('<tbody> 识别失败')
														
 
															-    #         print(r)
														
 
															-    #     try:
														
 
															-    #         res = res.split('</tbody>')[0]
														
 
															-    #     except Exception as r:
														
 
															-    #         print('</tbody> 识别失败')
														
 
															-    #         print(r)
														
 
															-    #     return res
														
 
															+        self.html_arr = []  # 存储HTML解析后的表格内容
														
 
															+        self.total = 0  # 表格单元总数
														
 
															+        self.empty = 0  # 空白表格单元数
														
 
															     def get_tr(self):
														
 
															-        # str = self.get_body()
														
 
															+        """
														
 
															+        从HTML中提取并返回表格行。
														
 
															+
														
 
															+        Returns:
														
 
															+            List: 提取的表格行列表。
														
 
															+        """
														
 
															         str = self.html
														
 
															         if len(str.split('<tr>')) > 1:
														
 
															             return str.split('<tr>')[1:]
														
@@ -32,6 +31,12 @@ class Table:
 
															             return []
														
 
															     def get_td(self):
														
 
															+        """
														
 
															+        从HTML中提取并存储表格单元。
														
 
															+
														
 
															+        Returns:
														
 
															+            None
														
 
															+        """
														
 
															         if self.html_arr != []:
														
 
															             return
														
 
															         tr_list = self.get_tr()
														
@@ -51,6 +56,12 @@ class Table:
 
															             self.html_arr.append(temp_list)
														
 
															     def get_empty(self):
														
 
															+        """
														
 
															+        统计表格中的空白单元格数量和总单元格数量。
														
 
															+
														
 
															+        Returns:
														
 
															+            None
														
 
															+        """
														
 
															         self.get_td()
														
 
															         if self.total != 0:
														
 
															             return
														
@@ -61,6 +72,12 @@ class Table:
 
															                     self.empty += 1
														
 
															     def change_green2white(self):
														
 
															+        """
														
 
															+        将图像中绿色区域修改为白色。
														
 
															+
														
 
															+        Returns:
														
 
															+            None
														
 
															+        """
														
 
															         hsv = cv2.cvtColor(self.img, cv2.COLOR_BGR2HSV)
														
 
															         lower_green = np.array([35, 43, 46])
														
 
															         upper_green = np.array([77, 220, 255])
														
@@ -69,6 +86,12 @@ class Table:
 
															         self.img[mask_green != 0] = color
														
 
															     def get_str(self):
														
 
															+        """
														
 
															+        从HTML数组中获取字符串。
														
 
															+
														
 
															+        Returns:
														
 
															+            str: 提取的字符串。
														
 
															+        """
														
 
															         str = ''
														
 
															         for tr in self.html_arr:
														
 
															             for cell in tr:
														
@@ -76,12 +99,15 @@ class Table:
 
															         return str
														
 
															     def check_html(self):
														
 
															+        """
														
 
															+        检查HTML表格的质量，如果识别效果不佳，则修改图像颜色。
														
 
															+
														
 
															+        Returns:
														
 
															+            int: 返回1表示识别效果不佳，返回0表示识别效果良好。
														
 
															+        """
														
 
															         self.get_empty()
														
 
															         html_str = self.get_str()
														
 
															-        print(self.html)
														
 
															-        print(self.html_arr)
														
 
															-        print(self.empty)
														
 
															         if (self.empty > 4 and self.empty > self.total // 4) or (
														
 
															                 '项目' in html_str and '每份' in html_str and '营养素参考值' in html_str and np.max(
														
 
															                 [len(a) for a in self.html_arr]) < 3):
														
--- a/cores/post_decorators.py
+++ b/cores/post_decorators.py
@@ -4,9 +4,10 @@ import re
 
															 @decorator
														
 
															 def rule1_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    predict_line = ['项目 ', '', '每100克营养素参考值%', '']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理表头第二格合并至第三格的情况
														
 
															+        predict_line = ['项目 ', '', '每100克营养素参考值%', '']
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     idx = 0
														
@@ -26,9 +27,10 @@ def rule1_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule2_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    predict_line = ['碳水化合物18.2克', '', '6%', '']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理碳水化合物这一行，第二格合并至第一格的问题
														
 
															+        predict_line = ['碳水化合物18.2克', '', '6%', '']
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     idx = 0
														
@@ -48,13 +50,14 @@ def rule2_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule3_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    ['患直质', '1.6克', '3%', '']
														
 
															-    ['脂扇', '1.1', '19%', '']
														
 
															-    ['碳水化合物', '勿18.2克', '6%', '']
														
 
															-    ['能量.', '408千焦',	'5%']
														
 
															-    ['——精', '2.9克']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理易错字
														
 
															+        ['患直质', '1.6克', '3%', '']
														
 
															+        ['脂扇', '1.1', '19%', '']
														
 
															+        ['碳水化合物', '勿18.2克', '6%', '']
														
 
															+        ['能量.', '408千焦',	'5%']
														
 
															+        ['——精', '2.9克']
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     predict_line = [re.sub('患直质', '蛋白质', s) for s in predict_line]
														
@@ -67,9 +70,10 @@ def rule3_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule4_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    ['', '项目每一百克', '营养素参考值']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理表头第一格合并至第二格的问题
														
 
															+        ['', '项目每100克', '营养素参考值']
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     try:
														
@@ -83,9 +87,10 @@ def rule4_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule5_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															+    """
														
 
															+        处理表头第三格合并至第二格的问题
														
 
															         predict_line = ['项目 ', '每份（70g）营养素参考值%', '']
														
 
															-    '''
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     try:
														
@@ -102,9 +107,10 @@ def rule5_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule6_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    predict_line = ['项目 ', '', '每份（70g）营养素参考值%', '']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理表头第二格合并至第三格的问题
														
 
															+        predict_line = ['项目 ', '', '每份（70g）营养素参考值%', '']
														
 
															+    """
														
 
															     predict_line = args[1]
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     idx = 0
														
@@ -123,22 +129,24 @@ def rule6_decorator(f, *args, **kwargs):
 
															 @decorator
														
 
															 def rule7_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    predict_line = ['项目 ', '', '每份（70g）营养素参考值%', '']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理项目缺一个字未识别出的问题
														
 
															+        predict_line = ['项', '每份（70g）', '营养素参考值%', '']
														
 
															+    """
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     try:
														
 
															         if '项目' in predict_line[0] or '项' in predict_line[0] or '目' in predict_line[0]:
														
 
															             predict_line[0] = '项目'
														
 
															     except IndexError as e:
														
 
															-        print('rule6_decorator', e)
														
 
															+        print('rule7_decorator', e)
														
 
															     return predict_line
														
 
															 @decorator
														
 
															 def rule8_decorator(f, *args, **kwargs):
														
 
															-    '''
														
 
															-    predict_line = ['项目 ', '', '每份（70g）营养素参考值%', '']
														
 
															-    '''
														
 
															+    """
														
 
															+        处理表头数据集中在第三格的问题
														
 
															+        predict_line = ['', '', '项目每份（70g）营养素参考值%', '']
														
 
															+    """
														
 
															     predict_line = f(*args, **kwargs)
														
 
															     try:
														
 
															         if len(predict_line) >= 3 \
														
@@ -151,7 +159,7 @@ def rule8_decorator(f, *args, **kwargs):
 
															             predict_line[1] = '每100克'
														
 
															             predict_line[2] = '营养素参考值%'
														
 
															     except IndexError as e:
														
 
															-        print('rule6_decorator', e)
														
 
															+        print('rule8_decorator', e)
														
 
															     return predict_line
														
--- a/cores/post_hander.py
+++ b/cores/post_hander.py
@@ -7,6 +7,7 @@ class PostHandler:
 
															         self.predict_html = predict_html
														
 
															         self.format_lines = self._get_format_lines()
														
 
															+    # 将二维列表处理为想要的富文本格式
														
 
															     @property
														
 
															     def format_predict_html(self):
														
 
															         if self.format_lines:
														
@@ -40,10 +41,12 @@ class PostHandler:
 
															         else:
														
 
															             return self.predict_html
														
 
															+    # 对每一行进行处理
														
 
															     @combined_decorator
														
 
															     def _format_predict_line(self, predict_line):
														
 
															         return predict_line
														
 
															+    # 对每一行进行处理
														
 
															     def _get_format_lines(self):
														
 
															         format_lines = []
														
 
															         predict_lines = self._get_lines(self.predict_html)
														
@@ -53,6 +56,7 @@ class PostHandler:
 
															             format_lines.append(line)
														
 
															         return format_lines
														
 
															+    # 获取每一行
														
 
															     def _get_lines(self, html) -> List[str]:
														
 
															         '''
														
 
															         res:  ['<td>项目</td><td>每100克</td><td>营养素参考值%</td>',...]
														
@@ -65,6 +69,7 @@ class PostHandler:
 
															                 res.extend(m)
														
 
															         return res
														
 
															+    # 切分每一个格子
														
 
															     def _split_to_words(self, line):
														
 
															         '''
														
 
															         line: '<td>项目</td><td>每100克</td><td>营养素参考值%</td>'
														
--- a/server.py
+++ b/server.py
@@ -1,19 +1,11 @@
 
															 # -*- coding: UTF-8 -*-
														
 
															-import json
														
 
															-from base64 import b64decode
														
 
															-import base64
														
 
															-
														
 
															-import cv2
														
 
															-import numpy as np
														
 
															-from fastapi import FastAPI, Request
														
 
															+from fastapi import FastAPI
														
 
															 from fastapi.middleware.cors import CORSMiddleware
														
 
															 from pydantic import BaseModel
														
 
															-from paddleocr import PaddleOCR, PPStructure
														
 
															+from paddleocr import PPStructure
														
 
															 from sx_utils.sxweb import *
														
 
															 from sx_utils.sximage import *
														
 
															 import threading
														
 
															-import os
														
 
															-import re
														
 
															 from sx_utils.sx_log import *
														
 
															 import paddleclas
														
@@ -35,15 +27,12 @@ app.add_middleware(
 
															 )
														
 
															 table_engine_lock = threading.Lock()
														
 
															-
														
 
															+# 表格识别模型
														
 
															 table_engine = PPStructure(layout=False,
														
 
															                            table=True,
														
 
															                            use_gpu=True,
														
 
															                            show_log=True,
														
 
															                            use_angle_cls=True,
														
 
															-                           #    det_model_dir="models/det/det_table_v2",
														
 
															-                           #    det_model_dir="models/det/det_table_v3",
														
 
															-                           #    rec_model_dir="models/rec/rec_table_v1",
														
 
															                            table_model_dir="models/table/SLANet_911")
														
 
															 cls_lock = threading.Lock()
														
@@ -51,38 +40,17 @@ cls_lock = threading.Lock()
 
															 cls_model = paddleclas.PaddleClas(model_name="text_image_orientation")
														
 
															-# # 普通表格
														
 
															-# table_engine = PPStructure(layout=False,
														
 
															-#                            table=True,
														
 
															-#                            use_gpu=use_gpu,
														
 
															-#                            show_log=True,
														
 
															-#                            det_model_dir="models/det/det_table_v2",
														
 
															-#                            rec_model_dir="./models/rec/rec_table_v1",
														
 
															-#                            table_model_dir="models/table/SLANet_v2")
														
 
															-#
														
 
															-# # 长度较长表格
														
 
															-# table_engine1 = PPStructure(layout=False,
														
 
															-#                             table=True,
														
 
															-#                             use_gpu=use_gpu,
														
 
															-#                             show_log=True,
														
 
															-#                             det_model_dir="models/det/det_table_v1",
														
 
															-#                             rec_model_dir="./models/rec/rec_table_v1",
														
 
															-#                             table_model_dir="./models/table/SLAnet_v1")
														
 
															-#
														
 
															-# # 针对某些特殊情况的补充模型
														
 
															-# table_engine2 = PPStructure(layout=False,
														
 
															-#                             table=True,
														
 
															-#                             use_gpu=use_gpu,
														
 
															-#                             show_log=True,
														
 
															-#                             det_model_dir="models/det/det_table_v3",
														
 
															-#                             rec_model_dir="./models/rec/rec_table_v1",
														
 
															-#                             table_model_dir="./models/table/SLAnet_v1")
														
 
															-#
														
 
															-#
														
 
															-#
														
 
															-
														
 
															 # 用于判断各个角度table的识别效果，识别的字段越多，效果越好
														
 
															 def cal_html_to_chs(html):
														
 
															+    """
														
 
															+    将HTML中的表格数据提取并合并为中文字符串。
														
 
															+
														
 
															+    Parameters:
														
 
															+        html (str): 输入的HTML字符串。
														
 
															+
														
 
															+    Returns:
														
 
															+        int: 合并后的中文字符串长度。
														
 
															+    """
														
 
															     res = []
														
 
															     rows = re.split('<tr>', html)
														
 
															     for row in rows:
														
@@ -97,11 +65,20 @@ def cal_html_to_chs(html):
 
															     rec_res = ''.join(res).replace(' ', '')
														
 
															     rec_res = re.split('<tdcolspan="\w+">', rec_res)
														
 
															     rec_res = ''.join(rec_res).replace(' ', '')
														
 
															-    print(rec_res)
														
 
															     return len(rec_res)
														
 
															 def predict_cls(image, conf=0.8):
														
 
															+    """
														
 
															+    使用分类模型对图像进行预测，并返回预测结果。
														
 
															+
														
 
															+    Parameters:
														
 
															+        image (np.ndarray): 输入的图像数组。
														
 
															+        conf (float): 置信度阈值，默认为0.8。
														
 
															+
														
 
															+    Returns:
														
 
															+        int: 预测结果的类别标签。
														
 
															+    """
														
 
															     try:
														
 
															         cls_lock.acquire()
														
 
															         result = cls_model.predict(image)
														
@@ -111,24 +88,40 @@ def predict_cls(image, conf=0.8):
 
															         score = res[0]['scores'][0]
														
 
															         label_name = res[0]['label_names'][0]
														
 
															         print(f"score: {score}, label_name: {label_name}")
														
 
															-        # print(conf)
														
 
															         if score > conf:
														
 
															             return int(label_name)
														
 
															     return -1
														
 
															 def rotate_to_zero(image, current_degree):
														
 
															-    # cv2.imwrite('1.jpg', image)
														
 
															+    """
														
 
															+    将图像旋转至零度方向。
														
 
															+
														
 
															+    Parameters:
														
 
															+        image (np.ndarray): 输入的图像数组。
														
 
															+        current_degree (float): 当前的旋转角度。
														
 
															+
														
 
															+    Returns:
														
 
															+        np.ndarray: 旋转后的图像数组。
														
 
															+    """
														
 
															     current_degree = current_degree // 90
														
 
															     if current_degree == 0:
														
 
															         return image
														
 
															     to_rotate = (4 - current_degree) - 1
														
 
															     image = cv2.rotate(image, to_rotate)
														
 
															-    # cv2.imwrite('2.jpg', image)
														
 
															     return image
														
 
															 def get_zero_degree_image(img):
														
 
															+    """
														
 
															+    获取经零度方向旋转后的图像。
														
 
															+
														
 
															+    Parameters:
														
 
															+        img (np.ndarray): 输入的图像数组。
														
 
															+
														
 
															+    Returns:
														
 
															+        np.ndarray: 经零度方向旋转后的图像数组。
														
 
															+    """
														
 
															     step = 0.2
														
 
															     for idx, i in enumerate([-1, 0, 1, 2]):
														
 
															         if i >= 0:
														
@@ -146,11 +139,18 @@ def get_zero_degree_image(img):
 
															 def table_res(im, ROTATE=-1):
														
 
															+    """
														
 
															+    获取图像中表格的识别结果和HTML字符串。
														
 
															+
														
 
															+    Parameters:
														
 
															+        im (np.ndarray): 输入的图像数组。
														
 
															+        ROTATE (int): 旋转角度，默认为-1。
														
 
															+
														
 
															+    Returns:
														
 
															+        Tuple: 表格识别结果和HTML字符串。
														
 
															+    """
														
 
															     im = im.copy()
														
 
															-    # cv2.imwrite('before-rotate.jpg', im)
														
 
															-    # 获取正向图片
														
 
															     img = get_zero_degree_image(im)
														
 
															-    # cv2.imwrite('after-rotate.jpg', img)
														
 
															     try:
														
 
															         table_engine_lock.acquire()
														
 
															         res = table_engine(img)
														
@@ -167,23 +167,40 @@ class TableInfo(BaseModel):
 
															 @app.get("/ping")
														
 
															 def ping():
														
 
															+    """
														
 
															+    用于检查服务是否存活的端点。
														
 
															+
														
 
															+    Returns:
														
 
															+        str: 返回pong表示服务存活。
														
 
															+    """
														
 
															     return 'pong!!!!!!!!!'
														
 
															 @app.post("/ocr_system/table")
														
 
															 @web_try()
														
 
															 def table(image: TableInfo):
														
 
															+    """
														
 
															+    对图像中的表格进行识别并返回HTML字符串。
														
 
															+
														
 
															+    Parameters:
														
 
															+        image (TableInfo): 输入的图像信息。
														
 
															+
														
 
															+    Returns:
														
 
															+        dict: 包含HTML字符串的字典。
														
 
															+    """
														
 
															+    # 转换图片格式
														
 
															     img = base64_to_np(image.image)
														
 
															+    # 进行表格识别
														
 
															     res, html = table_res(img)
														
 
															-    # print(html)
														
 
															+    # 创建Table实例
														
 
															     table = Table(html, img)
														
 
															+    # 效果不好则重新识别
														
 
															     if table.check_html():
														
 
															         res, html = table_res(table.img)
														
 
															     if html:
														
 
															-        post_hander = PostHandler(html)
														
 
															-        # print(post_hander.format_predict_html)
														
 
															-        return {'html': post_hander.format_predict_html}
														
 
															+        post_handler = PostHandler(html)
														
 
															+        return {'html': post_handler.format_predict_html}
														
 
															     else:
														
 
															         raise Exception('无法识别')
														
--- a/sx_utils/sximage.py
+++ b/sx_utils/sximage.py
@@ -1,7 +1,9 @@
 
															+import base64
														
 
															 from base64 import b64decode
														
 
															 import numpy as np
														
 
															 import cv2
														
 
															+# base64格式转numpy格式
														
 
															 def base64_to_np(img_data):
														
 
															     color_image_flag = 1
														
 
															     img_data = img_data.split(',',1)[-1]