表格数据集准备

表格数据集的图片由版面数据集切图得到，并经过页面旋转（Page Rotation）和倾斜校正（Skew Correction）预处理。

表格数据集使用 PPOCRLabel 进行标注，标注流程请查看官方文档：表格标注。

数据集格式

数据集为PaddleOCR 表格识别模型数据集格式，包含表格结构和每个 Cell 的信息：

{
   'filename': PMC5755158_010_01.png,                               # 图像名
   'html': {
     'structure': {'tokens': ['<thead>', '<tr>', '<td>', ...]},     # 表格的HTML字符串
     'cells': [
       {
         'tokens': ['P', 'a', 'd', 'd', 'l', 'e'],                  # 表格中的单个文本
         'bbox': [x0, y0, x1, y1]                                   # 表格中的单个文本的坐标
       }
     ]
   }
}

下载数据集

数据集地址：table-dataset。文件结构如下：

table-dataset/
├── artificial      # 人工合成的表格
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
├── conv.v16i       # 常规版面中的表格，切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
└── unconv.v7i      # 非常规版面中的表格，切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7
    ├── all         # 全部图片
    ├── all.txt
    ├── test.txt
    └── train.txt

上面的目录结构里，all 图片文件夹的标注存储在 all.txt 中。从 all.txt 中分割出的训练标签存储在 train.txt，测试标签存储在 test.txt 中。

prepare_data.md 2.3 KB

Geschiedenis Ruwe

表格数据集准备

数据集格式

下载数据集

调整数据

prepare_data.md 2.3 KB Geschiedenis Ruwe

表格数据集准备

数据集格式

下载数据集

调整数据

prepare_data.md 2.3 KB

Geschiedenis Ruwe