data-lakehouse

There are 1 repository under data-lakehouse topic.

qbeast-spark
Qbeast-io / qbeast-spark
Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!
spark scala big-data sampling datasource data-lakehouse spark-sql
Language:Scala 211
pracdata / awesome-open-source-data-engineering
A curated list of open source tools used in analytical stacks and data engineering ecosystem
awesome awesome-list data-analytics data-engineering data-platform database self-hosted mlops data-storage data data-integration data-lakehouse datalake lakehouse workflow-engine analytics data-warehouse observability data-pipeline etl
112
dominikhei / Local-Data-LakeHouse
Sample Data Lakehouse deployed in Docker containers using Apache Iceberg, Minio, Trino and a Hive Metastore. Can be used for local testing.
apache-iceberg data-lake data-lakehouse hive-metastore lakehouse minio trino
Language:Dockerfile 52
dataasee
ulbmuenster / dataasee
DatAasee - A Metadata-Lake for Libraries
data-lake data-lakehouse metadata-catalog metadata-management metadata-lake data-catalog data-engineering data-discovery metadata metalake academic-library research-library university-library metadata-mapping
Language:Makefile 10
aabouzaid / modern-data-platform-poc
My M.Sc. dissertation: Modern Data Platform using DataOps, Kubernetes, and Cloud-Native ecosystem to build a resilient Big Data platform based on Data Lakehouse architecture which is the base for Machine Learning (MLOps) and Artificial Intelligence (AIOps).
cloud-agnostic cloud-native data-lakehouse data-platform dataops edinburgh-napier kubernetes msc msc-project data-engineering big-data
Language:Jupyter Notebook 7
firelink-data / evolution
🦖 Efficiently evolve your old fixed-length data files into more modern file formats, fully parallelized!
apache-arrow apache-parquet arrow data-engineering cli rust data-lake data-science data-lakehouse parallel-programming converter data-generation data-mocking arrow-rs delta ipc flight iceberg delta-lake
Language:Rust 5
gupta-aayushkr / F1-Racing
The project aims to process Formula 1 racing data, create an automated data pipeline, and make the data available for presentation and analysis purposes.
azure data-factory data-lakehouse databricks pyspark-notebook sql
Language:Python 5
mahmoudparsian / data-warehousing
This repository is a place for the Data Warehousing course at the Information Systems & Analytics department, Santa Clara University.
business-intelligence data-analytics data-mining data-modeling data-warehousing database dimensional-modeling etl star-schema data-lake data-lakehouse data-visualization elt
Language:HTML 5
prneidhardt / AWS-Data-Lakehouse
STEDI project
apache-spark aws data-definition-language data-lakehouse data-manipulation
Language:Python 1
sudohainguyen / mini-lakehouse
Data lakehouse at home with docker compose
data-lakehouse trino hive iceberg
Language:Jupyter Notebook 1
ananyacanakapalli / University-Data-Design
This project is aimed at overhauling a university's data infrastructure to improve efficiency, security, and scalability, resulting in the successful creation of a unified data management solution.
athena aws aws-glue data-analysis data-architecture data-engineering data-lakehouse data-security data-visualization kinesis redshift sagemaker
0
cdelmonte-zg / delta-table-example
big-data change-data-capture data-lake data-lakehouse delta-lake delta-table change-data-feed
Language:Jupyter Notebook 0
Data-Kube / tst-datalakehouse-hudi
#Test - Create a Data Lakehouse in Kubernetes
kubernetes data-lakehouse flink hudi minio strimzi
0
eavilaes / qbeast-spark
Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!
scala big-data spark sampling datasource hacktoberfest spark-sql data-lakehouse
Language:Scala 0
huwngnosleep / complete_lakehouse_techstack
This project implements an end-to-end techstack for a data platform, for local development.
bigdata data-platform etl hadoop kafka lambda-architecture spark data-lakehouse data-warehouse
Language:Python 0
k0rsakov / all_about_DuckDB
Всё что нужно знать про DuckDB
duckdb habr tutorial tutorial-code tutorials data-engineering data-engineering-project data-lake data-lakehouse docker-compose
Language:Jupyter Notebook 0
k0rsakov / infrastructure_for_data_engineer_S3
Инфраструктура для data engineer S3
data-engineering data-engineering-project data-lake data-lakehouse docker-compose habr tutorial tutorial-code tutorials
Language:Python 0
THeades / serverless-data-lakehouse
This is an example project how to build a serverless data lakehouse on AWS using Terraform, Apache Iceberg and Spark.
apache-iceberg apache-spark aws data-engineering data-lakehouse terraform