# 表格数据集准备 表格数据集的图片由版面数据集切图得到,并经过页面旋转(Page Rotation)和倾斜校正(Skew Correction)预处理。 表格数据集使用 PPOCRLabel 进行标注,标注流程请查看官方文档:[表格标注](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/PPOCRLabel/README_ch.md#22-%E8%A1%A8%E6%A0%BC%E6%A0%87%E6%B3%A8%E8%A7%86%E9%A2%91%E6%BC%94%E7%A4%BA)。 ## 数据集格式 数据集为[PaddleOCR 表格识别模型数据集格式](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/table_recognition.md#11-%E6%95%B0%E6%8D%AE%E9%9B%86%E6%A0%BC%E5%BC%8F),包含表格结构和每个 Cell 的信息: ```text { 'filename': PMC5755158_010_01.png, # 图像名 'html': { 'structure': {'tokens': ['', '', '', ...]}, # 表格的HTML字符串 'cells': [ { 'tokens': ['P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本 'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标 } ] } } ``` ## 下载数据集 请将数据集下载到本地。数据集文件结构如下: ```text table-dataset/ ├── artificial # 人工合成的表格 │ ├── all # 全部图片 │ ├── all.txt │ ├── test.txt │ └── train.txt ├── conv.v16i # 常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16 │ ├── all # 全部图片 │ ├── all.txt │ ├── test.txt │ └── train.txt └── unconv.v7i # 非常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7 ├── all # 全部图片 ├── all.txt ├── test.txt └── train.txt ``` 上面的目录结构里,`all` 图片文件夹的标注存储在 `all.txt` 中。从 `all.txt` 中分割出的训练标签存储在 `train.txt`,测试标签存储在 `test.txt` 中。