hadoop-filesystem

There are 7 repositories under hadoop-filesystem topic.

lakeFS
treeverse / lakeFS
lakeFS - Data version control for your data lake | Git for data
apache-spark apache-sparksql aws-s3 azure-blob-storage azure-storage data-engineering data-lake data-quality data-version-control data-versioning datalake datalakes git-for-data go golang google-cloud-storage hadoop-filesystem lakefs object-storage
Language:Go 4965
GoogleCloudDataproc / hadoop-connectors
Libraries and tools for interoperability between Hadoop-related open-source software and Google Cloud Platform.
bigquery google-cloud-dataproc hadoop hadoop-filesystem hadoop-hcfs
Language:Java 286
linkedin / dynamometer
A tool for scale and performance testing of HDFS with a specific focus on the NameNode.
hadoop hadoop-filesystem hadoop-framework hadoop-hdfs hdfs hdfs-dfs performance-analysis performance-metrics performance-test performance-testing scale scale-up testing testing-tools
Language:Java 134
Data-Engineering-Project-with-HDFS-and-Kafka
AhmetFurkanDEMIR / Data-Engineering-Project-with-HDFS-and-Kafka
Data Engineering Project with Hadoop HDFS and Kafka
data data-engineer data-engineering data-engineering-pipeline docker docker-compose hadoop hadoop-filesystem hadoop-hdfs hdfs hdfs-client hdfs-dfs kafka kafka-consumer kafka-producer kafka-ui pipline python python-hdfs-client kafkaui
Language:Python 118
mmolimar / kafka-connect-fs
Kafka Connect FileSystem Connector
apache-kafka azure-storage confluent files filesystem ftp gcp hadoop hadoop-filesystem hdfs kafka kafka-connect kafka-connect-fs kafka-connector s3
Language:Java 112
jingw / pyhdfs
Python HDFS client
hadoop hadoop-filesystem hdfs python webhdfs
Language:Python 94
longshilin / HDFS-Netdisc
基于Hadoop的分布式云存储系统 :palm_tree:
bigdata filesystem hadoop hadoop-filesystem hdfs hdfs-client hdfs-netdisc netdisk
Language:Java 78
vivek2319 / Learn-Hadoop-and-Spark
This repository focuses on gathering and making a curated list resources to learn Hadoop for FREE.
hadoop hadoop-filesystem bigdata mapreduce pig oozie hive hbase flume sqoop yarn hiveql impala apache-kafka apache-spark apache-storm apache-solr apache-atlas apache-ranger apache-knox
Language:Python 55
palantir / hadoop-crypto
Library for per-file client-side encyption in Hadoop FileSystems such as HDFS or S3.
hadoop-filesystem hadoop-crypto hadoop octo-correct-managed
Language:Java 48
pfisterer / apache-hadoop-helm
Helm chart for Apache Hadoop using multi-arch docker images
docker hadoop hadoop-filesystem hadoop-hdfs hadoop-mapreduce helm helm-chart kubernetes
Language:Dockerfile 20
datasqueeze
ExpediaGroup / datasqueeze
Hadoop utility to compact small files
hadoop hadoop-filesystem hadoop-smallfiles smallfiles hdfs hdfs-compaction
Language:Java 18
averyzhong / hdfs-over-sftp
SFTP server which works on the top of HDFS，It is based on Apache sshd to access and operate HDFS through SFTP protocol
hdfs sftp hdfs-over-sftp hadoop-filesystem
Language:Java 12
waltherg / distributable_docker_sql_on_hadoop
Toy Hadoop cluster combining various SQL-on-Hadoop variants
hadoop hadoop-mapreduce hadoop-filesystem hadoop-cluster hadoop-docker hadoop-hdfs hadoop-framework hive hue spark sparksql hbase hbase-client yarn yarn-hadoop-cluster zookeeper zookeeper-deployment tez impala presto
Language:Shell 12
procter-gamble-oss / octopufs
OctopuFS library helps managing cloud storage, ADLSgen2 specifically. It allows you to operate on files (moving, copying, setting ACLs) in very efficient manner. Designed to work on databricks, but should work on any other platform as well.
adlsgen2 azure-storage databricks hadoop-filesystem scala spark
Language:Scala 11
Tapad / sbt-hadoop-oss
An sbt plugin for publishing artifacts to HDFS.
hadoop hadoop-filesystem hdfs sbt
Language:Scala 10
fasouto / webhdfspy
Python wrapper to access Hadoop HDFS REST API
hadoop-filesystem hdfs python wrapper
Language:Python 8
christopherkindl / twitter-data-pipeline-using-airflow-and-apache-spark
Data pipeline to process and analyse Twitter data in a distributed fashion using Apache Spark and Airflow in AWS environment
python3 apache-spark aws airflow hadoop-filesystem
Language:Python 7
jazzwang / hadoop_labs
MapReduce Java Code Examples to learn Hadoop
hadoop-filesystem hadoop-mapreduce java
Language:Java 7
TritonDataCenter / hadoop-manta
Hadoop Filesystem Driver for Manta
drill hadoop hadoop-filesystem joyent manta sqoop triton
Language:Java 6
aadishgoel / Hadoop-Codes
Neat and Handy Place for all Hadoop codes
hadoop mapreduce-java javaapi hdfs wordcount hadoop-hdfs hadoop-mapreduce hadoop-filesystem
Language:Java 5
HxnDev / Finding-Average-Temperature-of-Each-Year-using-Hadoop-HDFS
In this task, we had to calculate the average temperature for each year from the given dataset using Hadoop HDFS. We had to create a MapReduce function to perform this task.
hadoop hadoop-mapreduce hadoop-hdfs hadoop-filesystem hadoop-cluster mapreduce mapreduce-java average-calculator code java
Language:Java 5
CUBigDataClass / soccer-tweet-analysis
Ingestion pipeline to analyze soccer tweets
python cassandra hadoop-filesystem travis-ci spark elasticsearch angularjs django redis
Language:Python 4
HxnDev / Hadoop-MapReduce-to-Find-Average-Length-of-Comments
In this task, we had to find the average length of comments given in the dataset. It was done using Hadoop MapReduce and Hadoop HDFS.
average-length code comments distributed-computing distributed-systems hadoop hadoop-filesystem hadoop-hdfs hadoop-mapreduce hdfs java mapreduce mapreduce-java parallel-computing parallel-programming
Language:Java 4
Mohammed-siddiq / hadoop-XMLInputFormatWithMultipleTags
Mahout's XMLInputFormat with support for multiple input and output tags.
hadoop-filesystem xmlinputformat mahout
Language:Java 4
swan815 / MyFirstHadoopYunpan
基于hadoop的简易云盘实现
javaweb jsp hadoop-filesystem
Language:CSS 4
tchaye59 / Hadoop-Perfect-File
A Fast access container for small files
hadoop hadoop-filesystem
Language:Java 4
rshad / OpenCCML
Category: Cloud Computing and Machine Learning Application - Subject: A cloud platform to make data processing with machine learning algorithms, built on Openstack, using Spark for data distribution and Hadoop Filesystem for data storage
ansible cloud-computing data-processing hadoop-filesystem machine-learning nova openstack spark
Language:Python 3
SarahAyaz / YouTube_Data_Analysis
Analysis of YouTube Data using Hadoop Mapreduce framework in Java.
analysis hadoop hadoop-ecosystem hadoop-filesystem hadoop-hdfs hadoop-mapreduce hdfs java linux mapreduce mapreduce-java partitioner youtube
Language:Java 3
alex-ber / docker-hive
EMR 5.25.0 cluster single node Hadoop docker image. With Amazon Linux, Hadoop 2.8.5 and Hive 2.3.5
hadoop-docker hive docker docker-compose dockerfile docker-image hadoop-hdfs hadoop-mapreduce hadoop-cluster hadoop-ecosystem hadoop-framework hadoop-filesystem yarn-hadoop-cluster yarn hiveserver2 dockerfiles docker-images hadoop emr emr-cluster
Language:Shell 2
huangyueranbbc / hadoop05_pagerank
pagerank hadoop
hadoop hadoop-mapreduce mapreduce mapreduce-jobs pagerank pagerank-mapreduce hadoop-cluster hadoop-filesystem hadoop-java java mapreduce-java pagerank-java pagerank-algorithm java-pagerank
Language:Java 2
humanbeeng / hadoop-auto-install
A small helper script that can save your valuable time during installation of Apache Hadoop.
hadoop hadoop-hdfs hadoop-filesystem hadoop-cluster bash-script
Language:Shell 2
HwaiTengTeoh / Airbnb-Big-Data-Management
To develop an Airbnb database and create a pipeline using MongoDB and Hadoop architecture to ease the process of managing, loading, processing, querying, and analyzing Airbnb data based on location
big-data-management hdfs hiveql pig-latin pyspark-python hadoop-filesystem
Language:Jupyter Notebook 2
mikeroyal / Apache-Hadoop-Guide
Apache Hadoop Guide
hadoop hadoop-mapreduce hadoop-hdfs hadoop-cluster hadoop-filesystem
2
Niranjankumar-c / DataAnalytics_using_ClickstreamData
Casestudy completed as part of BigData training from analytix labs
hive hadoop-filesystem excel sqoop
2
samarthtambad / big-data-pl
Analysing programming languages by community characteristics on Github and StackOverflow
analytics big-data hadoop-filesystem hdfs sbt scala spark tableau-desktop
Language:Scala 2
Rohit9314 / my-hadoop
Setup hadoop cluster manually and automatically
hadoop-docker hadoop-cluster hadoop-mapreduce hadoop-filesystem hadoop-framework hadoop-distributions hdfs-docker docker-container dockerfiles docker-implemented-hadoop automated-hadoop-implementation complete-hadoop-setup hadoop-using-devops
Language:Python 1

hadoop-filesystem

treeverse / lakeFS

GoogleCloudDataproc / hadoop-connectors

linkedin / dynamometer

AhmetFurkanDEMIR / Data-Engineering-Project-with-HDFS-and-Kafka

mmolimar / kafka-connect-fs

jingw / pyhdfs

longshilin / HDFS-Netdisc

vivek2319 / Learn-Hadoop-and-Spark

palantir / hadoop-crypto

pfisterer / apache-hadoop-helm

ExpediaGroup / datasqueeze

averyzhong / hdfs-over-sftp

waltherg / distributable_docker_sql_on_hadoop

procter-gamble-oss / octopufs

Tapad / sbt-hadoop-oss

fasouto / webhdfspy

christopherkindl / twitter-data-pipeline-using-airflow-and-apache-spark

jazzwang / hadoop_labs

TritonDataCenter / hadoop-manta

aadishgoel / Hadoop-Codes

HxnDev / Finding-Average-Temperature-of-Each-Year-using-Hadoop-HDFS

CUBigDataClass / soccer-tweet-analysis

HxnDev / Hadoop-MapReduce-to-Find-Average-Length-of-Comments

Mohammed-siddiq / hadoop-XMLInputFormatWithMultipleTags

swan815 / MyFirstHadoopYunpan

tchaye59 / Hadoop-Perfect-File

rshad / OpenCCML

SarahAyaz / YouTube_Data_Analysis

alex-ber / docker-hive

huangyueranbbc / hadoop05_pagerank

humanbeeng / hadoop-auto-install

HwaiTengTeoh / Airbnb-Big-Data-Management

mikeroyal / Apache-Hadoop-Guide

Niranjankumar-c / DataAnalytics_using_ClickstreamData

samarthtambad / big-data-pl

Rohit9314 / my-hadoop