表格数据集的图片由版面数据集切图得到,并经过页面旋转(Page Rotation)和倾斜校正(Skew Correction)预处理。
表格数据集使用 PPOCRLabel 进行标注,标注流程请查看官方文档:表格标注。
数据集为PaddleOCR 表格识别模型数据集格式,包含表格结构和每个 Cell 的信息:
{
'filename': PMC5755158_010_01.png, # 图像名
'html': {
'structure': {'tokens': ['<thead>', '<tr>', '<td>', ...]}, # 表格的HTML字符串
'cells': [
{
'tokens': ['P', 'a', 'd', 'd', 'l', 'e'], # 表格中的单个文本
'bbox': [x0, y0, x1, y1] # 表格中的单个文本的坐标
}
]
}
}
数据集地址:table-dataset。文件结构如下:
table-dataset/
├── artificial # 人工合成的表格
│ ├── all # 全部图片
│ ├── all.txt
│ ├── test.txt
│ └── train.txt
├── conv.v16i # 常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout/16
│ ├── all # 全部图片
│ ├── all.txt
│ ├── test.txt
│ └── train.txt
└── unconv.v7i # 非常规版面中的表格,切图自 https://app.roboflow.com/yili-gxczm/yili_layout_non_rec_for_seg/7
├── all # 全部图片
├── all.txt
├── test.txt
└── train.txt
上面的目录结构里,all
图片文件夹的标注存储在 all.txt
中。从 all.txt
中分割出的训练标签存储在 train.txt
,测试标签存储在 test.txt
中。
可使用 TableGeneration 生成表格图像。表格所需的数据量较大,官方推荐至少准备 2000 张用于模型微调。