2 years ago · 61561dab84
--- a/Makefile
+++ b/Makefile
@@ -3,7 +3,7 @@ VERSION=latest
 
															 BUILD_TIME      := $(shell date "+%F %T")
														
 
															 COMMIT_SHA1     := $(shell git rev-parse HEAD)
														
 
															 AUTHOR          := $(shell git show -s --format='%an')
														
 
															-
														
 
															+REMOTE_WORKSPACE=/home/sxwl1070/zhangli/bigdata/datax-admin
														
 
															 .PHONY: image publish
														
@@ -15,4 +15,10 @@ publish:
 
															 	@docker push registry.cn-hangzhou.aliyuncs.com/sxtest/$(NAME):$(VERSION)
														
 
															 pull:
														
 
															-	@docker pull registry.cn-hangzhou.aliyuncs.com/sxtest/$(NAME):$(VERSION)
														
 
															+	@docker pull registry.cn-hangzhou.aliyuncs.com/sxtest/$(NAME):$(VERSION)
														
 
															+
														
 
															+deploy: pull
														
 
															+	@docker-compose down  && docker-compose up -d
														
 
															+
														
 
															+remote:
														
 
															+	@ssh -t sxwl1070@192.168.199.107 "cd $(REMOTE_WORKSPACE); make deploy"
														
--- a/app/core/datax/engine.py
+++ b/app/core/datax/engine.py
@@ -2,6 +2,8 @@ from typing import Any, List
 
															 from app import models
														
 
															 from app import schemas
														
 
															 from app.core.datax.rdbms import RdbmsReader, RdbmsWriter
														
 
															+from app.core.datax.hdfs import *
														
 
															+from app.models import database
														
@@ -10,6 +12,8 @@ class ReaderFactory:
 
															     def get_reader(ds: models.JobJdbcDatasource):
														
 
															         if ds.datasource == 'mysql':
														
 
															             return RdbmsReader(ds)
														
 
															+        elif ds.datasource == 'hive':
														
 
															+            return HdfsReader(ds)
														
 
															         else:
														
 
															             raise Exception('Unimplemented Reader')
														
@@ -19,14 +23,18 @@ class WriterFactory:
 
															     def get_writer(ds: models.JobJdbcDatasource):
														
 
															         if ds.datasource == 'mysql':
														
 
															             return RdbmsWriter(ds)
														
 
															+        elif ds.datasource == 'hive':
														
 
															+            return HdfsWriter(ds)
														
 
															         else:
														
 
															             raise Exception('Unimplemented Writer')
														
 
															 class DataXEngine:
														
 
															-    def build_job(self, ds: models.JobJdbcDatasource, param: schemas.DataXJsonParam, is_show=True) -> dict:
														
 
															+    def build_job(self, ds_reader: models.JobJdbcDatasource,
														
 
															+                        ds_writer: models.JobJdbcDatasource,
														
 
															+                        param: schemas.DataXJsonParam, is_show=True) -> dict:
														
 
															         res = dict()
														
 
															-        content = self.build_content(ds, param, is_show)
														
 
															+        content = self.build_content(ds_reader, ds_writer, param, is_show)
														
 
															         setting = self.build_setting()
														
 
															         res['job'] = {
														
 
															             'content': content,
														
@@ -34,9 +42,12 @@ class DataXEngine:
 
															         }
														
 
															         return res
														
 
															-    def build_content(self, ds: models.JobJdbcDatasource, param: schemas.DataXJsonParam, is_show) -> List[Any]:
														
 
															-        reader = ReaderFactory.get_reader(ds)
														
 
															-        writer = WriterFactory.get_writer(ds)
														
 
															+    def build_content(self, ds_reader: models.JobJdbcDatasource,
														
 
															+                            ds_writer: models.JobJdbcDatasource,
														
 
															+                            param: schemas.DataXJsonParam, is_show) -> List[Any]:
														
 
															+        reader = ReaderFactory.get_reader(ds_reader)
														
 
															+        writer = WriterFactory.get_writer(ds_writer)
														
 
															+
														
 
															         res = dict()
														
 
															         res['reader'] = reader.build(param, is_show)
														
 
															         res['writer'] = writer.build(param, is_show)
														
--- a/app/core/datax/hdfs.py
+++ b/app/core/datax/hdfs.py
@@ -0,0 +1,149 @@
 
															+from typing import List
														
 
															+from app.core.datax.base import ReaderBase, WriterBase
														
 
															+from app.models import JobJdbcDatasource
														
 
															+from app.schemas.datax_json import DataXJsonParam
														
 
															+from app.utils import *
														
 
															+
														
 
															+
														
 
															+
														
 
															+{
														
 
															+    "writer": {
														
 
															+          "name": "hdfswriter",
														
 
															+          "parameter": {
														
 
															+            "defaultFS": "hdfs://192.168.199.107:9000",
														
 
															+            "fileType": "text",
														
 
															+            "path": "/usr/hive/warehouse/test_1",
														
 
															+            "fileName": "test_1",
														
 
															+            "writeMode": "append",
														
 
															+            "fieldDelimiter": "|",
														
 
															+            "column": [
														
 
															+              {
														
 
															+                "name": "id",
														
 
															+                "type": "int"
														
 
															+              },
														
 
															+              {
														
 
															+                "name": "ssn",
														
 
															+                "type": "varchar"
														
 
															+              },
														
 
															+              {
														
 
															+                "name": "test2",
														
 
															+                "type": "int"
														
 
															+              }
														
 
															+            ]
														
 
															+          }
														
 
															+        }
														
 
															+}
														
 
															+
														
 
															+
														
 
															+{
														
 
															+    "reader": {
														
 
															+        "name": "hdfsreader",
														
 
															+        "parameter": {
														
 
															+        "path": "/usr/hive/warehouse/grades/*",
														
 
															+        "defaultFS": "hdfs://192.168.199.107:9000",
														
 
															+        "fileType": "csv",
														
 
															+        "fieldDelimiter": ",",
														
 
															+        "column": [
														
 
															+            {
														
 
															+            "index": 0,
														
 
															+            "type": "long"
														
 
															+            },
														
 
															+            {
														
 
															+            "index": 3,
														
 
															+            "type": "string"
														
 
															+            },
														
 
															+            {
														
 
															+            "index": 5,
														
 
															+            "type": "long"
														
 
															+            }
														
 
															+        ]
														
 
															+        }
														
 
															+    }
														
 
															+}
														
 
															+
														
 
															+class HdfsReader(WriterBase):
														
 
															+    def __init__(self, ds: JobJdbcDatasource):
														
 
															+        WriterBase.__init__(self, ds)
														
 
															+        if ds.datasource == 'hive':
														
 
															+            self.name = 'hdfsreader'
														
 
															+        else:
														
 
															+            raise Exception('Unimplemented HdfsReader')
														
 
															+
														
 
															+    def _build_column(self, columns: List[dict]):
														
 
															+        res = []
														
 
															+        for column in columns:
														
 
															+            tmp = dict()
														
 
															+            index, name, type = column.split(':')
														
 
															+            tmp['index'] = index
														
 
															+            tmp['type'] = self._convert_type(type)
														
 
															+            res.append(tmp)
														
 
															+        if not res:
														
 
															+            raise Exception('No column found')
														
 
															+        return res
														
 
															+
														
 
															+    def _convert_type(self, type):
														
 
															+        if type.lower() == 'int':
														
 
															+            return 'long'
														
 
															+        elif type.lower() == 'varchar':
														
 
															+            return 'string'
														
 
															+
														
 
															+    def build_parameter(self, param: DataXJsonParam, is_show=True):
														
 
															+        parameter = dict()
														
 
															+        parameter['path'] = param.hive_reader.reader_path
														
 
															+        parameter['defaultFS'] = param.hive_reader.reader_default_fs
														
 
															+        parameter['fileType'] = param.hive_reader.reader_file_type
														
 
															+        parameter['fieldDelimiter'] = param.hive_reader.reader_field_delimiter
														
 
															+        parameter['column'] = self._build_column(param.reader_columns)
														
 
															+        return parameter
														
 
															+
														
 
															+
														
 
															+    def build(self, param: DataXJsonParam, is_show=True):
														
 
															+        reader = dict()
														
 
															+        parameter = self.build_parameter(param, is_show)
														
 
															+        reader['name'] = self.name
														
 
															+        reader['parameter'] = parameter
														
 
															+        return reader
														
 
															+
														
 
															+
														
 
															+
														
 
															+
														
 
															+class HdfsWriter(WriterBase):
														
 
															+    def __init__(self, ds: JobJdbcDatasource):
														
 
															+        WriterBase.__init__(self, ds)
														
 
															+        if ds.datasource == 'hive':
														
 
															+            self.name = 'hdfswriter'
														
 
															+        else:
														
 
															+            raise Exception('Unimplemented HdfsWriter')
														
 
															+
														
 
															+    def _build_column(self, columns: List[dict]):
														
 
															+        res = []
														
 
															+        for column in columns:
														
 
															+            tmp = dict()
														
 
															+            _, name, type = column.split(':')
														
 
															+            tmp['name'] = name
														
 
															+            tmp['type'] = type
														
 
															+            res.append(tmp)
														
 
															+        if not res:
														
 
															+            raise Exception('No column found')
														
 
															+        return res
														
 
															+
														
 
															+
														
 
															+    def build_parameter(self, param: DataXJsonParam, is_show=True):
														
 
															+        parameter = dict()
														
 
															+        parameter['defaultFS'] = param.hive_writer.writer_default_fs
														
 
															+        parameter['fileType'] = param.hive_writer.writer_file_type
														
 
															+        parameter['path'] = param.hive_writer.writer_path
														
 
															+        parameter['fileName'] = param.hive_writer.writer_filename
														
 
															+        parameter['writeMode'] = param.hive_writer.write_mode
														
 
															+        parameter['fieldDelimiter'] = param.hive_writer.write_field_delimiter
														
 
															+        parameter['column'] = self._build_column(param.writer_columns)
														
 
															+        return parameter
														
 
															+
														
 
															+    def build(self, param: DataXJsonParam, is_show=True):
														
 
															+        writer = dict()
														
 
															+        parameter = self.build_parameter(param, is_show)
														
 
															+        writer['name'] = self.name
														
 
															+        writer['parameter'] = parameter
														
 
															+        return writer
														
 
															+
														
 
															+
														
--- a/app/core/ds/hive.py
+++ b/app/core/ds/hive.py
@@ -76,7 +76,12 @@ class HiveDS(DataSourceBase):
 
															         logger.info(self.database_name)
														
 
															         sql = f'describe {self.database_name}.{table_name}'
														
 
															         res = self._execute_sql([sql])
														
 
															-        logger.info(res)
														
 
															-        return flat_map(lambda x: [':'.join(x[:2])], res[0])
														
 
															+        if res:
														
 
															+            res = [[str(i) , *x]for i, x in enumerate(res[0])]
														
 
															+            logger.info(res)
														
 
															+
														
 
															+            return flat_map(lambda x: [':'.join(x[:3])], res)
														
 
															+        else:
														
 
															+            raise Exception('table not found')
														
--- a/app/core/ds/mysql.py
+++ b/app/core/ds/mysql.py
@@ -94,7 +94,13 @@ class MysqlDS(DataSourceBase):
 
															     def get_table_schema(self, table_name):
														
 
															         sql = f'describe {self.database_name}.{table_name}'
														
 
															         res = self._execute_sql([sql])
														
 
															-        logger.info(res)
														
 
															-        return flat_map(lambda x: [':'.join(x[:2])], res[0])
														
 
															+        if res:
														
 
															+            res = [[str(i) , *x]for i, x in enumerate(res[0])]
														
 
															+            logger.info(res)
														
 
															+
														
 
															+            return flat_map(lambda x: [':'.join(x[:3])], res)
														
 
															+        else:
														
 
															+            raise Exception('table not found')
														
 
															+
														
--- a/app/crud/datax_json.py
+++ b/app/crud/datax_json.py
@@ -16,7 +16,7 @@ def generate_datax_json(db: Session, param: schemas.DataXJsonParam):
 
															         raise Exception('Writer datasource not found')
														
 
															     engine = DataXEngine()
														
 
															-    job = engine.build_job(reader_ds, param, is_show=False)
														
 
															+    job = engine.build_job(reader_ds, writer_ds, param, is_show=False)
														
 
															     logger.info(job)
														
 
															     return {'json': job}
														
--- a/app/routers/datax_json.py
+++ b/app/routers/datax_json.py
@@ -1,6 +1,6 @@
 
															 from fastapi import APIRouter
														
 
															-from fastapi import Depends
														
 
															+from fastapi import Depends, Body
														
 
															 from sqlalchemy.orm import Session
														
 
															 from app import schemas
														
@@ -21,7 +21,9 @@ router = APIRouter(
 
															 @router.post("/")
														
 
															 @web_try()
														
 
															 @sxtimeit
														
 
															-def build_datax_json(param: schemas.DataXJsonParam, db: Session = Depends(get_db)):
														
 
															+def build_datax_json(param: schemas.DataXJsonParam=Body(
														
 
															+    examples = schemas.DataXJsonParam.Config.schema_extra['examples']
														
 
															+), db: Session = Depends(get_db)):
														
 
															     print(param)
														
 
															     return crud.generate_datax_json(db, param)
														
--- a/app/schemas/datax_json.py
+++ b/app/schemas/datax_json.py
@@ -16,7 +16,7 @@ class HiveWriterParam(BaseModel):
 
															     writer_file_type: str
														
 
															     writer_path: str
														
 
															     writer_filename: str
														
 
															-    write_mode: Optional[str]
														
 
															+    write_mode: Optional[str]='append'
														
 
															     write_field_delimiter: Optional[str]
														
@@ -42,26 +42,110 @@ class DataXJsonParam(BaseModel):
 
															     rdbms_reader: Optional[RdbmsReaderParam]
														
 
															     rdbms_writer: Optional[RdbmsWriterParam]
														
 
															-
														
 
															     class Config:
														
 
															         schema_extra = {
														
 
															-            "example": {
														
 
															-                "reader_datasource_id": 18,
														
 
															-                "reader_tables": ["job_group_copy1"],
														
 
															-                "reader_columns": ["id", "app_name", "title", "address_type"],
														
 
															-                "writer_datasource_id": 18,
														
 
															-                "writer_tables": ["job_group_copy2"],
														
 
															-                "writer_columns": ["id", "app_name", "title", "address_type"],
														
 
															-                "rdbms_reader": {
														
 
															-                    "reader_split_pk": "",
														
 
															-                    "where_param": "",
														
 
															-                    "query_sql": ""
														
 
															+            'examples': {
														
 
															+                'mysql2mysql': {
														
 
															+                    "reader_datasource_id": 18,
														
 
															+                    "reader_tables": ["job_group_copy1"],
														
 
															+                    "reader_columns": ["id", "app_name", "title", "address_type"],
														
 
															+                    "writer_datasource_id": 18,
														
 
															+                    "writer_tables": ["job_group_copy2"],
														
 
															+                    "writer_columns": ["id", "app_name", "title", "address_type"],
														
 
															+                    "rdbms_reader": {
														
 
															+                        "reader_split_pk": "",
														
 
															+                        "where_param": "",
														
 
															+                        "query_sql": ""
														
 
															+                    },
														
 
															+                    "rdbms_writer": {
														
 
															+                        "pre_sql": "delete from job_group_copy2",
														
 
															+                        "post_sql": ""
														
 
															+                    }
														
 
															+                },
														
 
															+                'mysql2hive': {
														
 
															+                    "reader_datasource_id": 18,
														
 
															+                    "reader_tables": ["grades"],
														
 
															+                    "reader_columns": ["id", "ssn", "test2"],
														
 
															+                    "writer_datasource_id": 17,
														
 
															+                    "writer_columns": ["0:id:int", "1:ssn:varchar", "2:test2:int"],
														
 
															+                    "writer_tables": [],
														
 
															+                    "rdbms_reader": {
														
 
															+                        "reader_split_pk": "",
														
 
															+                        "where_param": "",
														
 
															+                        "query_sql": ""
														
 
															+                    },
														
 
															+                    "hive_writer": {
														
 
															+                        "writer_default_fs": "hdfs://192.168.199.107:9000",
														
 
															+                        "writer_file_type": "text",
														
 
															+                        "writer_path": "/usr/hive/warehouse/test_1",
														
 
															+                        "writer_filename": "test_1",
														
 
															+                        "write_mode": "append",
														
 
															+                        "write_field_delimiter": "|"
														
 
															+                    }
														
 
															                 },
														
 
															-                "rdbms_writer": {
														
 
															-                    "pre_sql": "delete from job_group_copy2",
														
 
															-                    "post_sql": ""
														
 
															+                'hive2mysql': {
														
 
															+                    "reader_datasource_id": 17,
														
 
															+                    "reader_tables": ["grades"],
														
 
															+                    "reader_columns": ["0:id:int", "3:ssn:varchar", "5:test2:int"],
														
 
															+                    "writer_datasource_id": 18,
														
 
															+                    "writer_tables": ["grades"],
														
 
															+                    "writer_columns": ["id", "ssn", "test2"],
														
 
															+                    "hive_reader": {
														
 
															+                        "reader_default_fs": "hdfs://192.168.199.107:9000",
														
 
															+                        "reader_file_type": "csv",
														
 
															+                        "reader_path": "/usr/hive/warehouse/grades/*",
														
 
															+                        "reader_field_delimiter": ",",
														
 
															+                        "reader_skip_header": "true"
														
 
															+                    },
														
 
															+                    "rdbms_writer": {
														
 
															+                        "pre_sql": "delete from grades;",
														
 
															+                        "post_sql": ""
														
 
															+                    }
														
 
															                 }
														
 
															             }
														
 
															         }
														
 
															+    # class Config:
														
 
															+    #     schema_extra = {
														
 
															+    #         "example": {
														
 
															+    #             "reader_datasource_id": 18,
														
 
															+    #             "reader_tables": ["job_group_copy1"],
														
 
															+    #             "reader_columns": ["id", "app_name", "title", "address_type"],
														
 
															+    #             "writer_datasource_id": 18,
														
 
															+    #             "writer_tables": ["job_group_copy2"],
														
 
															+    #             "writer_columns": ["id", "app_name", "title", "address_type"],
														
 
															+    #             "rdbms_reader": {
														
 
															+    #                 "reader_split_pk": "",
														
 
															+    #                 "where_param": "",
														
 
															+    #                 "query_sql": ""
														
 
															+    #             },
														
 
															+    #             "rdbms_writer": {
														
 
															+    #                 "pre_sql": "delete from job_group_copy2",
														
 
															+    #                 "post_sql": ""
														
 
															+    #             }
														
 
															+    #         }
														
 
															+
														
 
															+    #         "example": {
														
 
															+    #             "reader_datasource_id": 18,
														
 
															+    #             "reader_tables": ["grades"],
														
 
															+    #             "reader_columns": ["id", "ssn", "test2"],
														
 
															+    #             "writer_datasource_id": 17,
														
 
															+    #             "writer_columns": ["id:int", "ssn:string", "test2:int"],
														
 
															+    #             "writer_tables": ["grades"],
														
 
															+    #             "rdbms_reader": {
														
 
															+    #                 "reader_split_pk": "",
														
 
															+    #                 "where_param": "",
														
 
															+    #             },
														
 
															+    #               "hive_writer": {
														
 
															+    #                 "writer_default_fs": "hdfs://192.168.199.107:9000",
														
 
															+    #                 "writer_file_type": "text",
														
 
															+    #                 "writer_path": "/usr/hive/warehouse/test_1",
														
 
															+    #                 "writer_filename": "test_1",
														
 
															+    #                 "write_mode": "append",
														
 
															+    #                 "write_field_delimiter": "|"
														
 
															+    #             }
														
 
															+    #         }
														
 
															+    #     }
														
 
															+
														
 
															+
														
--- a/data/data.sql
+++ b/data/data.sql