8 months ago · 9868fb3a64
--- a/docs/prepare_data.md
+++ b/docs/prepare_data.md
@@ -25,7 +25,7 @@
 
				 
			
 
				 ## 下载数据集
			
 
				 
			
 
				-请将数据集下载到本地。数据集文件结构如下：
			
 
				+数据集地址：[table-dataset](http://jupyterlab.sxkj.com/nbs/lab/tree/projects/yili-ocr/final/table-dataset)。文件结构如下：
			
 
				 
			
 
				 ```text
			
 
				 table-dataset/
			
@@ -47,3 +47,7 @@ table-dataset/
 
				 ```
			
 
				 
			
 
				 上面的目录结构里，`all` 图片文件夹的标注存储在 `all.txt` 中。从 `all.txt` 中分割出的训练标签存储在 `train.txt`，测试标签存储在 `test.txt` 中。
			
 
				+
			
 
				+## 调整数据
			
 
				+
			
 
				+可使用 [TableGeneration](https://github.com/WenmuZhou/TableGeneration) 生成表格图像。表格所需的数据量较大，官方推荐至少准备 2000 张用于模型微调。
			
--- a/docs/train_and_eval.md
+++ b/docs/train_and_eval.md
@@ -16,6 +16,12 @@ git clone --depth 1 https://github.com/PaddlePaddle/PaddleOCR.git
 
				 cd PaddleOCR
			
 
				 ```
			
 
				 
			
 
				+安装依赖：
			
 
				+
			
 
				+```bash
			
 
				+pip install -r requirements.txt
			
 
				+```
			
 
				+
			
 
				 PaddleOCR 训练数据的默认存储路径是 `PaddleOCR/train_data`。我们将数据集下载到本地后，可以拷贝数据集或创建软链接到对应目录：
			
 
				 
			
 
				 ```bash
			
@@ -37,9 +43,9 @@ PaddleOCR 对训练过程做了模块化，如果要训练不同的模型，我
 
				 $ cat configs/table/SLANet_ch.yml
			
 
				 Global:
			
 
				   use_gpu: True
			
 
				-  # 修改训练轮数
			
 
				+  # 训练轮数
			
 
				   epoch_num: 400
			
 
				-  # 修改为实际的预训练模型文件
			
 
				+  # 预训练模型文件
			
 
				   pretrained_model: ./pretrain_models/ch_ppstructure_mobile_v2.0_SLANet_train/best_accuracy
			
 
				 ...
			
 
				 
			
@@ -49,25 +55,25 @@ Optimizer:
 
				   beta2: 0.999
			
 
				   clip_norm: 5.0
			
 
				   lr:
			
 
				-    # 修改学习率
			
 
				+    # 学习率
			
 
				     learning_rate: 0.001
			
 
				 ...
			
 
				 
			
 
				 Train:
			
 
				   dataset:
			
 
				     name: PubTabDataSet
			
 
				-    # 修改为实际训练集的目录
			
 
				+    # 训练集目录
			
 
				     data_dir: train_data/table-dataset/artificial
			
 
				-    # 修改为实际训练集的标签文件
			
 
				+    # 训练集标注文件
			
 
				     label_file_list: [train_data/table-dataset/artificial/train.txt]
			
 
				 ...
			
 
				 
			
 
				 Eval:
			
 
				   dataset:
			
 
				     name: PubTabDataSet
			
 
				-    # 修改为实际验证集的目录
			
 
				+    # 验证集目录
			
 
				     data_dir: train_data/table-dataset/artificial/
			
 
				-    # 修改为实际验证集的标签文件
			
 
				+    # 验证集标注文件
			
 
				     label_file_list: [train_data/table-dataset/artificial/test.txt]
			
 
				 ...
			
 
				 ```