# 表格数据集准备 表格数据集的图片由版面数据集切图得到,并经过旋转校正预处理。 表格数据集使用 PPOCRLabel 进行标注,标注流程请查看官方文档:[表格标注](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/PPOCRLabel/README_ch.md#22-%E8%A1%A8%E6%A0%BC%E6%A0%87%E6%B3%A8%E8%A7%86%E9%A2%91%E6%BC%94%E7%A4%BA)。 ## 数据集格式 数据集为[PaddleOCR 表格识别模型数据集格式](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/table_recognition.md#11-%E6%95%B0%E6%8D%AE%E9%9B%86%E6%A0%BC%E5%BC%8F),包含表格结构和每个 Cell 的信息: ```text { 'filename': PMC5755158_010_01.png, # 图像名 'html': { 'structure': {'tokens': ['', '', '', ...]}, # 表格的HTML字符串 'cells': [ { 'tokens': ['P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本 'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标 } ] } } ``` ## 下载数据集 数据集地址:[table-dataset](http://jupyterlab.sxkj.com/nbs/lab/tree/projects/yili-ocr/final/table-dataset)。文件结构如下: ```text table-dataset/ ├── artificial # 人工合成的表格 │ ├── all # 全部图片 │ ├── all.txt │ ├── test.txt │ └── train.txt ├── conv.v16i # 常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16 │ ├── all # 全部图片 │ ├── all.txt │ ├── test.txt │ └── train.txt └── unconv.v7i # 非常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7 ├── all # 全部图片 ├── all.txt ├── test.txt └── train.txt ``` 上面的目录结构里,`all` 图片文件夹的标注存储在 `all.txt` 中。从 `all.txt` 中分割出的训练标签存储在 `train.txt`,测试标签存储在 `test.txt` 中。 ## 调整数据 可使用 [layout-ocr-data-utils](https://gogs.soaringnova.com/yili-ocr/layout-ocr-data-utils) 调整表格数据集,如合并切分,数据增强等,以及进行数据可视化。具体请查看该工具的文档。 可使用 [TableGeneration](https://github.com/WenmuZhou/TableGeneration) 生成表格图像。表格所需的数据量较大,官方推荐至少准备 2000 张用于模型微调。