mapreduce

There are 16 repositories under mapreduce topic.

donnemartin / data-science-ipython-notebooks
Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.
aws big-data caffe data-science deep-learning hadoop kaggle keras machine-learning mapreduce matplotlib numpy pandas python scikit-learn scipy spark tensorflow theano
Language:Python 27147
redisson / redisson
Redisson - Easy Redis Java client and Real-Time Data Platform. Valkey compatible. Sync/Async/RxJava/Reactive API. Over 50 Redis based Java objects and services: Set, Multimap, SortedSet, Map, List, Queue, Deque, Semaphore, Lock, AtomicLong, Map Reduce, Bloom filter, Spring Cache, Tomcat, Scheduler, JCache API, Hibernate, RPC, local cache ...
cache distributed distributed-locks executor hibernate java list lock map mapreduce queue redis redis-client redis-cluster scheduler session set spring-cache tomcat
Language:Java 23206
heibaiying / BigData-Notes
大数据入门指南 :star:
azkaban big-data bigdata flume hadoop hbase hdfs hive kafka mapreduce phoenix scala spark sqoop storm yarn zookeeper
Language:Java 15743
PowerJob
PowerJob / PowerJob
Enterprise job scheduling middleware with distributed computing ability.
scheduler workflow distributed mapreduce java cron job job-scheduler
Language:Java 6766
douban / dpark
Python clone of Spark, a MapReduce alike framework in Python
bigdata dpark mapreduce python spark stream-processing
Language:Python 2691
water8394 / BigData-Interview
:dart: :star2:[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop/Hive/Spark/Flink/Hbase/Kafka/Zookeeper框架的面试题知识总结
bigdata spark kafka hbase flink hadoop hdfs mapreduce yarn interview interview-questions
1567
collabH / bigdata-growth
大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。
flink kafka hive mapreduce spark olap kudu hadoop hbase debezium hdfs bigdata hudi bigdatalearning
Language:Shell 1435
mahmoudparsian / data-algorithms-book
MapReduce, Spark, Java, and Scala for Data Algorithms Book
hadoop-mapreduce java distributed-computing scala mapreduce data-algorithms python machine-learning pyspark distributed-algorithms mappers reducers apache-hadoop apache-spark design-patterns partitioning
Language:Java 1064
microsoft / Mobius
C# and F# language binding and extensions to Apache Spark
spark apache-spark rdd dataframe dstream dataset streaming csharp mobius kafka-streaming spark-streaming fsharp bigdata mapreduce eventhubs near-real-time
Language:C# 943
happyer / distributed-computing
distributed_computing include mapreduce kvstore etc.
raft mapreduce consistency
Language:Go 795
cdapio / cdap
An open source framework for building data analytic applications.
cdap dataset integration java java-8 mapreduce middleware platform python spark spark-streaming unified
Language:Java 755
bcongdon / corral
🐎 A serverless MapReduce framework written for AWS Lambda
aws-lambda mapreduce-framework mapreduce serverless
Language:Go 692
sunnyandgood / BigData
💎🔥大数据学习笔记
flume hadoop hbase hdfs hive linux mapreduce mysql shell sqoop zookeeper
Language:Java 671
grailbio / bigslice
A serverless cluster computing system for the Go programming language
cluster computing go golang mapreduce bigdata machinelearning etl
Language:Go 549
CamDavidsonPilon / tdigest
t-Digest data structure in Python. Useful for percentiles and quantiles, including distributed enviroments like PySpark
distributed-computing estimate mapreduce percentile pyspark python quantile
Language:Python 381
apache / incubator-uniffle
Uniffle is a high performance, general purpose Remote Shuffle Service.
mapreduce shuffle spark remote-shuffle-service rss tez
Language:Java 371
RedisGears / RedisGears
Dynamic execution framework for your Redis data
analytics mapreduce redis redisgears stream-processing
Language:Rust 367
cubefs / compass
Compass is a task diagnosis platform for bigdata
bigdata spark hadoop flink diagnose mapreduce scheduler sql airflow dolphinscheduler
Language:Java 348
cwensel / cascading
Cascading is a feature rich API for defining and executing complex and fault tolerant data processing flows locally or on a cluster.
hadoop java mapreduce tez
Language:Java 344
DigitalPebble / behemoth
Behemoth is an open source platform for large scale document analysis based on Apache Hadoop.
hadoop java nlp mapreduce
Language:Java 281
datawhalechina / juicy-bigdata
🎉🎉🐳 Datawhale大数据处理导论教程 | 大数据技术方向的开篇课程🎉🎉
bigdata hadoop hbase hdfs hive mapreduce spark
Language:Python 264
Tencent / Firestorm
Firestorm is a Remote Shuffle Service, and provides the capability for Apache Spark and Apache Hadoop MapReduce applications to store shuffle data on remote servers
spark shuffle mapreduce remoteshuffle
Language:Java 252
BWbwchen / MapReduce
An easy-to-use Map Reduce Go parallel-computing framework inspired by 2021 6.824 lab1. It supports multiple workers threads on a single machine and multiple processes on a single machine right now.
mapreduce golang parallel-computing mapreduce-go
Language:Go 219
xingdl2007 / 6.824-2017
:zap: 6.824: Distributed Systems (Spring 2017). A course which present abstractions and implementation techniques for engineering distributed systems.
distributed-systems key-value-store mapreduce raft sharding-db
214
mahmoudparsian / data-algorithms-with-spark
O'Reilly Book: [Data Algorithms with Spark] by Mahmoud Parsian
spark pyspark data algorithms transformations partitioning-algorithms machine-learning design-patterns data-algorithms data-abstractions python design monoid mapreduce mappers reducers data-transformation dataframes rdd bigdata
Language:Python 202
lynnlangit / learning-hadoop-and-spark
Companion to Learning Hadoop and Learning Spark courses on Linked In Learning
hadoop dataproc emr spark learning-hadoop mapreduce apache-spark wordcount
Language:HTML 181
kevwan / mapreduce
A in-process MapReduce library to help you optimizing service response time or concurrent task processing.
go golang mapreduce mapreduce-go concurrent-programming concurrent
Language:Go 167
mahmoudparsian / big-data-mapreduce-course
Big Data Modeling, MapReduce, Spark, PySpark @ Santa Clara University
pyspark-algorithms-book mapreduce santa-clara-university pyspark data-algorithms data-transformation data-partition partitioning-algorithms algorithms mapreduce-python mapreduce-algorithm apache-hadoop apache-spark big-data data-analysis data-engineering glossary monoid spark-dataframes spark-rdd
Language:HTML 149
touero / ctenopharyngodon-idella
Hadoop, MapReduce Distributed Crawling of Data Information from All Chinese Universities.
fastapi hadoop hadoop-mapreduce java mapreduce maven scraping
Language:Java 141
razertory / MIT6.824-Java
Java 实现的分布式系统课程(MIT6.824)
java mapreduce raft
Language:Java 135
mimecast / dtail
DTail is a distributed DevOps tool for tailing, grepping, catting logs and other text files on many remote machines at once.
adhoc devops devops-tools distributed golang log log-management mapreduce mimecast troubleshooting
Language:Go 125
asakusafw / asakusafw
Asakusa Framework
asakusa-framework batch batch-processing java hadoop mapreduce data-flow framework big-data
Language:Java 116
miguno / avro-hadoop-starter
Example MapReduce jobs in Java, Hive, Pig, and Hadoop Streaming that work on Avro data.
avro hadoop java mapreduce hive pig
Language:Java 114
CocaineCong / tangseng
Tangseng search engine including full text search and vector search base on golang. 基于go语言的搜索引擎，信息检索系统
boltdb etcd gin inverted-index losertree lsm-tree search-engine segment dockcer-compose docker kafka mapreduce full-text-search vector-search distributed-systems grpc
Language:Go 111
feng-li / Distributed-Statistical-Computing
Teaching Materials for Distributed Statistical Computing (大数据分布式计算教学材料)
spark-teaching spark hadoop mapreduce statistical-models pyspark-tutorial
Language:HTML 104
Refefer / Dampr
Python Data Processing library
dataflow batch-processing mapreduce machine-learning
Language:Python 102

mapreduce

donnemartin / data-science-ipython-notebooks

redisson / redisson

heibaiying / BigData-Notes

PowerJob / PowerJob

douban / dpark

water8394 / BigData-Interview

collabH / bigdata-growth

mahmoudparsian / data-algorithms-book

microsoft / Mobius

happyer / distributed-computing

cdapio / cdap

bcongdon / corral

sunnyandgood / BigData

grailbio / bigslice

CamDavidsonPilon / tdigest

apache / incubator-uniffle

RedisGears / RedisGears

cubefs / compass

cwensel / cascading

DigitalPebble / behemoth

datawhalechina / juicy-bigdata

Tencent / Firestorm

BWbwchen / MapReduce

xingdl2007 / 6.824-2017

mahmoudparsian / data-algorithms-with-spark

lynnlangit / learning-hadoop-and-spark

kevwan / mapreduce

mahmoudparsian / big-data-mapreduce-course

touero / ctenopharyngodon-idella

razertory / MIT6.824-Java

mimecast / dtail

asakusafw / asakusafw

miguno / avro-hadoop-starter

CocaineCong / tangseng

feng-li / Distributed-Statistical-Computing

Refefer / Dampr