apache-spark spark spark-sql python python3 pyspark etl etl-pipeline etl-framework etl-components xml xml-parsing datalake big-data hadoop hadoop-mapreduce hadoop-hdfs data-pipeline

Datalake ETL Pipeline

Data transformation simplified for any Data platform.

Features: The package has complete ETL process -

Uses metadata, transformation & data model information to design ETL pipeline
Builds target transformation SparkSQL and Spark Dataframes
Builds source & target Hive DDLs
Validates DataFrames, extends core classes, defines DataFrame transformations, and provides UDF SQL functions.
Supports below fundamental transformations for ETL pipeline -
- Filters on source & target dataframes
- Grouping and Aggregations on source & target dataframes
- Heavily nested queries / dataframes
Has complex and heavily nested XML, JSON, Parquet & ORC parser to nth level of nesting
Has Unit test cases designed on function/method level & measures source code coverage
Has information about delpoying to higher environments
Has API documentation for customization & enhancement

Enhancements: In progress -

Integrate Audit and logging - Define Error codes, log process failures, Audit progress & runtime information

About

Simplified ETL process in Hadoop using Apache Spark. Has complete ETL pipeline for datalake. SparkSession extensions, DataFrame validation, Column extensions, SQL functions, and DataFrame transformations

apache-spark spark spark-sql python python3 pyspark etl etl-pipeline etl-framework etl-components xml xml-parsing datalake big-data hadoop hadoop-mapreduce hadoop-hdfs data-pipeline

Apache License 2.0

Languages

Language:Python 94.0%Language:Shell 4.0%Language:HTML 2.0%