# 表格数据集准备

表格数据集的图片由版面数据集切图得到，并经过页面旋转（Page Rotation）和倾斜校正（Skew Correction）预处理。

表格数据集使用 PPOCRLabel 进行标注，标注流程请查看官方文档：[表格标注](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/PPOCRLabel/README_ch.md#22-%E8%A1%A8%E6%A0%BC%E6%A0%87%E6%B3%A8%E8%A7%86%E9%A2%91%E6%BC%94%E7%A4%BA)。

## 数据集格式

数据集为[PaddleOCR 表格识别模型数据集格式](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/table_recognition.md#11-%E6%95%B0%E6%8D%AE%E9%9B%86%E6%A0%BC%E5%BC%8F)，包含表格结构和每个 Cell 的信息：

```text
{
   'filename': PMC5755158_010_01.png,                               # 图像名
   'html': {
     'structure': {'tokens': ['<thead>', '<tr>', '<td>', ...]},     # 表格的HTML字符串
     'cells': [
       {
         'tokens': ['P', 'a', 'd', 'd', 'l', 'e'],                  # 表格中的单个文本
         'bbox': [x0, y0, x1, y1]                                   # 表格中的单个文本的坐标
       }
     ]
   }
}
```

## 下载数据集

请将数据集下载到本地。数据集文件结构如下：

```text
table-dataset/
├── artificial      # 人工合成的表格
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
├── conv.v16i       # 常规版面中的表格，切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16
│   ├── all         # 全部图片
│   ├── all.txt
│   ├── test.txt
│   └── train.txt
└── unconv.v7i      # 非常规版面中的表格，切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7
    ├── all         # 全部图片
    ├── all.txt
    ├── test.txt
    └── train.txt
```

上面的目录结构里，`all` 图片文件夹的标注存储在 `all.txt` 中。从 `all.txt` 中分割出的训练标签存储在 `train.txt`，测试标签存储在 `test.txt` 中。