prepare_data.md 2.5 KB

表格数据集准备

表格数据集的图片由版面数据集切图得到,并经过旋转校正预处理。

表格数据集使用 PPOCRLabel 进行标注,标注流程请查看官方文档:表格标注

数据集格式

数据集为PaddleOCR 表格识别模型数据集格式,包含表格结构和每个 Cell 的信息:

{
   'filename': PMC5755158_010_01.png,                               # 图像名
   'html': {
     'structure': {'tokens': ['<thead>', '<tr>', '<td>', ...]},     # 表格的HTML字符串
     'cells': [
       {
         'tokens': ['P', 'a', 'd', 'd', 'l', 'e'],                  # 表格中的单个文本
         'bbox': [x0, y0, x1, y1]                                   # 表格中的单个文本的坐标
       }
     ]
   }
}

下载数据集

数据集地址:table-dataset。文件结构如下:

table-dataset/
├── artificial      # 人工合成的表格
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
├── conv.v16i       # 常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
└── unconv.v7i      # 非常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7
    ├── all         # 全部图片
    ├── all.txt
    ├── test.txt
    └── train.txt

上面的目录结构里,all 图片文件夹的标注存储在 all.txt 中。从 all.txt 中分割出的训练标签存储在 train.txt,测试标签存储在 test.txt 中。

调整数据

可使用 layout-ocr-data-utils 调整表格数据集,如合并切分,数据增强等,以及进行数据可视化。具体请查看该工具的文档。

可使用 TableGeneration 生成表格图像。表格所需的数据量较大,官方推荐至少准备 2000 张用于模型微调。