rdd

There are 1 repository under rdd topic.

microsoft / Mobius
C# and F# language binding and extensions to Apache Spark
spark apache-spark rdd dataframe dstream dataset streaming csharp mobius kafka-streaming spark-streaming fsharp bigdata mapreduce eventhubs near-real-time
Language:C# 941
ondra-m / ruby-spark
Ruby wrapper for Apache Spark
distributed rdd ruby ruby-spark spark
Language:Ruby 225
mahmoudparsian / data-algorithms-with-spark
O'Reilly Book: [Data Algorithms with Spark] by Mahmoud Parsian
spark pyspark data algorithms transformations partitioning-algorithms machine-learning design-patterns data-algorithms data-abstractions python design monoid mapreduce mappers reducers data-transformation dataframes rdd bigdata
Language:Python 196
zouzias / spark-lucenerdd
Spark RDD with Lucene's query and entity linkage capabilities
spark lucene rdd spatial-search record-linkage deduplication entity-linking linkage hacktoberfest
Language:Scala 126
Thomas-George-T / Movies-Analytics-in-Spark-and-Scala
Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.
spark spark-sql rdd shell-script big-data dataframes movielens-data-analysis big-data-analytics big-data-projects spark-programs scala movielens-dataset analytics case-study spark-dataframes spark-rdd hadoop spark-scala movies
Language:Scala 93
mahmoudparsian / pyspark-algorithms
PySpark Algorithms Book: https://www.amazon.com/dp/B07X4B2218/ref=sr_1_2
pyspark spark mapreduce algorithms distributed-computing python data-science graphframes monoid dataframe rdd big-data partitioning transformations data data-abstractions nosql pyspark-algorithms
Language:Python 81
dbis-ilm / stark
A framework for Spatio-Temporal Data Analytics on Spark
spatial rdd spatial-data-analysis spatio-temporal-data apache-spark scala data-analysis
Language:Scala 50
asifahmed90 / pyspark-ML-in-Colab
Pyspark in Google Colab: A simple machine learning (Linear Regression) model
spark pyspark colab-notebook regression-models machine-learning-algorithms python3 hadoop rdd
Language:Jupyter Notebook 36
fsanaulla / chronicler-spark
InfluxDB connector to Apache Spark on top of Chronicler
spark influxdb scala chronicler rdd streaming dataframe
Language:Scala 27
Balajirvp / DE-Zoomcamp
Code/Notes for the Data Engineering Zoomcamp by DataTalksClub
batchprocessing bigquery dataengineering dbt docker gcp prefect streaming pyspark python rdd spark sql terraform datalake datamodeling datawarehouse
Language:Jupyter Notebook 25
Causal-Inference-Using-Quasi-Experimental-Methods
LeihuaYe / Causal-Inference-Using-Quasi-Experimental-Methods
Causal Inference Using Quasi-Experimental Methods
causal-inference causality causation causal-models causality-analysis causal causal-impact experimental experimental-design experimentation experiments rdd its synthetic-control interrupted-time-series regression-discontinuity-designs difference-in-differences
19
derrickoswald / CIMSpark
Spark access to Common Information Model (CIM) files
amazon-web-services docker maven r scala spark xml-parser azure cim rdd
Language:Scala 15
VinayChaudhari1996 / pyspark-dataframe-made-easy
pyspark dataframe made easy
pyspark spark dataframe python bigdata apache pandas rdd agg coalesce groupby join parquet csv json filter api cca175 databricks bigqu
Language:Jupyter Notebook 15
practicalli / doom-emacs
Guide to Clojure REPL Driven Development with Emacs Doom
clojure repl-driven-development rdd emacs emacs-doom
Language:HTML 13
kimaina / openmrs-etl
openmrs - mysql - debezium - kafka - spark - scala
openmrs debezium kafka scala etl pipeline mysql spark-streaming consumer-group openmrs-etl topology streaming stream-processing dstream rdd spark
Language:TSQL 11
shre1000 / Sentiment-Analysis-of-Twitter-Data-using-pySpark-and-Live-Graphs
Sentiment Analysis and Data Visualization
chartjs data-visualization flask-application hdfs linux live-graph machine-learning-algorithms nltk parallel-processing pyspark python rdd sentiment-classification socket spark-mllib spark-sql spark-streaming tweepy
Language:Python 11
yuanqing / rdd
:pencil: Preview your Markdown locally as it would appear on GitHub, with live updating
markdown readme rdd github
Language:JavaScript 11
changzhiwin / spark-core-analysis
Imitate and rewrite Spark's RDD (core)
rdd scala spark
Language:Scala 10
marcosgambeta / sqlrddpp
SQLRDD for Harbour++ and Harbour
harbour rdd sql mysql postgresql firebird odbc sqlserver
Language:C 10
PastorGL / OneRing
One Ring is a framework to unify, unite and bind Apache Spark-based computing modules, and run them in parametrized chains
java rdd s3 etl apache-spark emr geospatial gis data-science data-analysis spark locomizer
Language:Java 10
xavierguihot / spark_helper
A bunch of low-level basic methods for data processing and monitoring with Scala Spark
scala spark hdfs filesystem date data logger monitor rdd sparkcontext
Language:Scala 10
g1thubhub / bdrecipes
Big Data Recipes
dataframe datasets javascript pyspark pyspark-python python rdd scala spark
Language:Scala 9
neerajkesav / SparkJavaExamples
Apache Spark Basics - Java Examples
java apache-spark spark spark-actions sparkcontext sparkjava spark-dataframes spark-java spark-transformations spark-basics learn-spark spark-example flatmap rdd hdfs hadoop javardd
Language:Java 9
felixthoemmes / rddapp
rddapp: Regression Discontinuity Design Application
rdd parametric-rdd non-parametric-rdd
Language:HTML 8
CarolinaNicasio / APACHESPARK-PYSPARK-2023
PySpark es una biblioteca de procesamiento de datos distribuidos en Python que permite procesar grandes volúmenes de datos en clústeres utilizando el framework Apache Spark, ofreciendo un alto rendimiento y un conjunto de herramientas integradas para el análisis y manejo de datos a gran escala.
apache apachespark data-science dataframe github-actions pyspark python python3 rdd spark
7
NashTech-Labs / Sparkathon
A library having Java and Scala examples for Spark 2.x
spark scala java-8 apache-spark knoldus spark-streaming spark-sql spark-dataframes spark-dataset spark-structured-streaming rdd spark-mllib spark-ml
Language:Java 7
chen0040 / spark-ml-genetic-programming
Package provides java implementation of big-data genetic programming for Apache Spark
linear-genetic-programming tree-genetic-programming tree-gp genetic-programming spark big-data rdd
Language:Java 6
rhinempi / sparkhit
sparkhit - analyzing large scale genomic data on the cloud
spark rdd cloud ngs genomics bioinformatics mapreduce machine-learning alignment
Language:Java 6
vlad-bystrov / spark-user-feedback
spark rdd dataframes datasets conversion
Language:Scala 6
gogundur / Pyspark-WordCount
Pyspark WordCount
wordcount punctuation pyspark userdefined-functions spark rdd
Language:Jupyter Notebook 5
nishantrathi100 / E-Commerce-Stream-Analytics
zeppelin zeppelin-notebook spark sparql pyspark scala rdd cassandra cassandra-cql cassandra-database java simulator clickstream
Language:JavaScript 5
tomerlieber / spark-on-hbase
Reading, writing and deleting from HBase with Spark RDD
hbase spark rdd scala
Language:Scala 5
Tritbool / MultipleTest4Spark
MT4S - Multiple Tests 4 Spark - a simple Junit/Scalatest testing framework for Apache Spark
spark apache-spark testing unit-testing scala logging dataframe rdd comparison scalatest junit
Language:Scala 5
JohannesSKunz / ReductionsInOut-of-PocketPrices
Replication files and simulations for Johansson et al 2023 JHE
kinkeddonutrdd rdd stata
Language:Stata 4
amageh / replication-performance-standards
Replication of Lindo, Sanders & Oreopoulos (2010), Student Project
economics microeconometrics performance-standards rdd
Language:Jupyter Notebook 3
MahsaShk / ApacheSpark
Apache Spark machine learning project using pyspark
rdd dataframe mllib pyspark aws ec2 spark logiticregression gbt randomforest linearregression imbalanced-data featureimportances sparkstreaming twitter covid-19 streaming nlp
Language:Jupyter Notebook 3

rdd

microsoft / Mobius

ondra-m / ruby-spark

mahmoudparsian / data-algorithms-with-spark

zouzias / spark-lucenerdd

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

mahmoudparsian / pyspark-algorithms

dbis-ilm / stark

asifahmed90 / pyspark-ML-in-Colab

fsanaulla / chronicler-spark

Balajirvp / DE-Zoomcamp

LeihuaYe / Causal-Inference-Using-Quasi-Experimental-Methods

derrickoswald / CIMSpark

VinayChaudhari1996 / pyspark-dataframe-made-easy

practicalli / doom-emacs

kimaina / openmrs-etl

shre1000 / Sentiment-Analysis-of-Twitter-Data-using-pySpark-and-Live-Graphs

yuanqing / rdd

changzhiwin / spark-core-analysis

marcosgambeta / sqlrddpp

PastorGL / OneRing

xavierguihot / spark_helper

g1thubhub / bdrecipes

neerajkesav / SparkJavaExamples

felixthoemmes / rddapp

CarolinaNicasio / APACHESPARK-PYSPARK-2023

NashTech-Labs / Sparkathon

chen0040 / spark-ml-genetic-programming

rhinempi / sparkhit

vlad-bystrov / spark-user-feedback

gogundur / Pyspark-WordCount

nishantrathi100 / E-Commerce-Stream-Analytics

tomerlieber / spark-on-hbase

Tritbool / MultipleTest4Spark

JohannesSKunz / ReductionsInOut-of-PocketPrices

amageh / replication-performance-standards

MahsaShk / ApacheSpark