spark-rdd

There are 0 repository under spark-rdd topic.

mahmoudparsian / pyspark-tutorial
PySpark-Tutorial provides basic algorithms using PySpark
big-data big-data-analytics data-algorithms dataframes pyspark pyspark-sql pyspark-tutorial ranking-functions rdds spark spark-dataframes spark-rdd
Language:Jupyter Notebook 1259
mahmoudparsian / big-data-mapreduce-course
Big Data Modeling, MapReduce, Spark, PySpark @ Santa Clara University
pyspark-algorithms-book mapreduce santa-clara-university pyspark data-algorithms data-transformation data-partition partitioning-algorithms algorithms mapreduce-python mapreduce-algorithm apache-hadoop apache-spark big-data data-analysis data-engineering glossary monoid spark-dataframes spark-rdd
Language:HTML 161
Thomas-George-T / Movies-Analytics-in-Spark-and-Scala
Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.
spark spark-sql rdd shell-script big-data dataframes movielens-data-analysis big-data-analytics big-data-projects spark-programs scala movielens-dataset analytics case-study spark-dataframes spark-rdd hadoop spark-scala movies
Language:Scala 94
yennanliu / spark-etl-pipeline
Various data stream/batch process demo with Apache Scala Spark 🚀
spark docker spark-streaming spark-batch spark-sql spark-rdd spark-dataframes scala dockerfile pipeline twitter sbt sbt-plugin sbt-assembly stream-processing apache-spark
Language:Scala 11
Ren294 / Log-Analysis-Project
This project builds a scalable log analytics pipeline use Lambda architecture for real-time and batch processing of NASA server logs.
apache-kafka apache-nifi apache-spark big-data big-data-analytics cassandra cassandra-driver data-engineering data-science grafana hadoop hadoop-hdfs hive powerbi spark-rdd spark-sql spark-streaming
Language:Python 8
nipunmanral / Community-Detection-In-Graphs
Implementation of Girvan-Newman Algorithm to detect communities in graphs using Yelp dataset
data-mining girvan-newman community-detection betweenness social-graph spark-rdd map-reduce yelp-dataset breadth-first-search
Language:Python 5
MaxineXiong / Item-based-collaborative-filtering
This project utilizes PySpark DataFrames and PySpark RDD to implement item-based collaborative filtering. By calculating cosine similarity scores or identifying movies with the highest number of shared viewers, the system recommends 10 similar movies for a given target movie that aligns users’ preferences.
apache-spark collaborative-filtering movie-recommendation pyspark python spark spark-dataframes spark-rdd
Language:Jupyter Notebook 4
adityajn105 / Apache-Spark-Tutorials
Apache spark is a big data analysis framework.
pyspark spark-ml bigdata spark spark-tutorials spark-rdd
Language:Jupyter Notebook 2
MaxineXiong / Degrees-of-Separation-with-Breadth-first-Search
This project utilizes PySpark RDD and the Breadth-first Search (BFS) algorithm to find the shortest path and degrees of separation between two given Marvel superheroes based on based on their appearances together in the same comic books, empowering users to discover connections between their favourite superheroes in the Marvel universe.
apache-spark pyspark python spark-rdd spark bfs-algorithm breadth-first-search degrees-of-separation marvel-characters
Language:Jupyter Notebook 2
manojpawar94 / Spark-Scala-Examples
I have implemented the sample programs using apache spark. The programs have developed on the concepts of Spark RDD and Spark SQL Dataframe.
apache-spark spark spark-rdd spark-sql
Language:Scala 1
mohammad-safari / spark-hadoop-exercise
spark hadoop exercise of cloud computing course - aut 1402-1403 fall
big-data hadoop hadoop-yarn hdfs mapreduce spark spark-dataframes spark-rdd spark-sql
Language:Jupyter Notebook 1
nikhilkumawat03 / Extracting-Relevant-Document
Projects contains based on Big Data
hadoop mapreduce spark-sql spark-rdd java-8
Language:Java 1
ricardoariasalazar / Flights-Delay
In this project, we use Spark to visualize, manipulate, model and stream historical flight-delays data using Spark RDD, Spark SQL and Kafka
pyspark spark-sql spark-rdd big-data-analytics kafka-streams
Language:Jupyter Notebook 1
ShreeshaN / SparkBigDataTutorials
Demonstration of basic data transformations using Spark RDD and Spark DataFrame in Scala
spark spark-sql spark-sql-udf spark-rdd spark-scala scala-sbt
Language:Scala 1
smusab9152 / Pyspark_programs_and_projects
Collection of PySpark programs and projects demonstrating the use of Apache Spark's Python API for big data processing and analysis. It includes practical implementations such as logistic regression classification, data analysis on the Iris dataset, and basic PySpark operations like temperature conversion.
apache-spark big-data big-data-analytics data-engineering distributed-computing etl pyspark spark-dataframes spark-rdd spark-sql
Language:Jupyter Notebook 1
BhargaviNadendla / Twitter-Analysis-on-BigData
apache-spark spark-rdd spark-sql tweepy twitter-streaming-api
Language:Roff 0
demanejar / spark-rdd
Spark RDD basic
project spark spark-rdd
Language:Java 0
firedent / Data-curation-and-indexing-with-ElasticSearch
This program will process legal report via Stanford CoreNLP and index them in ElasticSearch
elasticsearch json scala spark-rdd xml
Language:Scala 0
Big-Data-Analytics
madhurimarawat / Big-Data-Analytics
This repository demonstrates big data processing, visualization, and machine learning using tools such as Hadoop, Spark, Kafka, and Python.
big-data big-data-analytics big-data-analytics-techniques hadoop-hdfs hadoop-installation hadoop-mapreduce python apache-kafka apache-spark data-preprocessing-and-cleaning data-visualization hadoop-hive hiveql spark-graphx spark-mllib spark-mllib-library spark-rdd spark-streaming data-stratification
Language:Jupyter Notebook 0
on2e / ntua-atdb
Advanced Topics in Databases course project - NTUA ECE - 2022-23
advanced-database apache-hadoop apache-spark ntua-ece pyspark spark-dataframes spark-rdd
Language:Python 0
RiccardoRevalor / Spark
Spark exercises
pyspark spark spark-rdd spark-sql
Language:Jupyter Notebook 0
alimiheb / ChicagoEnergyUsage-SparkAnalysis
The Chicago Energy Usage Analysis project aims to explore energy consumption patterns in Chicago using big data techniques. Leveraging Apache Spark, it processes a dataset of 67051 records to provide actionable insights for urban planning and energy efficiency initiatives.
apache-spark big-data chicago-data-portal data-analysis intellij java maven spark-rdd spark-sql
Language:Java
contactsunny / spring-spark-s3-file-read
A POC written in Java using the Spring framework, which uses Apache Spark to read a file from Amazon S3 FS and counts the number of lines in the file.
spark apache-spark spark-s3 rdd-s3 spark-rdd-s3 spark-rdd java spring-boot spring thetechcheck poc
Language:Java
Maybrittnelson / spark-parquet-thrift-example
Example Spark project using Parquet as a columnar store with Thrift objects.
maven parquet spark-rdd thrift
Language:Scala
melissakou / Notes-Big-Data-Essentials
A notes for Coursera Course: Big Data Essentials - HDFS, MapReduce and Spark RDD
coursera-course hdfs mapreduce reading-notes spark-rdd
vaibhav50596 / DeerfootTrailAnalysis
The goal is to train a linear regression model to predict Deerfoot commute times given weather and accident conditions using Spark RDD and MLlib
spark spark-mllib spark-rdd
Language:Jupyter Notebook

spark-rdd

mahmoudparsian / pyspark-tutorial

mahmoudparsian / big-data-mapreduce-course

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

yennanliu / spark-etl-pipeline

Ren294 / Log-Analysis-Project

nipunmanral / Community-Detection-In-Graphs

MaxineXiong / Item-based-collaborative-filtering

adityajn105 / Apache-Spark-Tutorials

MaxineXiong / Degrees-of-Separation-with-Breadth-first-Search

manojpawar94 / Spark-Scala-Examples

mohammad-safari / spark-hadoop-exercise

nikhilkumawat03 / Extracting-Relevant-Document

ricardoariasalazar / Flights-Delay

ShreeshaN / SparkBigDataTutorials

smusab9152 / Pyspark_programs_and_projects

BhargaviNadendla / Twitter-Analysis-on-BigData

demanejar / spark-rdd

firedent / Data-curation-and-indexing-with-ElasticSearch

madhurimarawat / Big-Data-Analytics

on2e / ntua-atdb

RiccardoRevalor / Spark

alimiheb / ChicagoEnergyUsage-SparkAnalysis

contactsunny / spring-spark-s3-file-read

Maybrittnelson / spark-parquet-thrift-example

melissakou / Notes-Big-Data-Essentials

vaibhav50596 / DeerfootTrailAnalysis