spark-dataframes

There are 1 repository under spark-dataframes topic.

mahmoudparsian / pyspark-tutorial
PySpark-Tutorial provides basic algorithms using PySpark
big-data big-data-analytics data-algorithms pyspark spark spark-dataframes spark-rdd dataframes pyspark-sql pyspark-tutorial ranking-functions rdds
Language:Jupyter Notebook 1257
26hzhang / StockPrediction
Plain Stock Close-Price Prediction via Graves LSTM RNNs
recurrent-neural-networks lstm java deeplearning4j spark-dataframes stock-price-prediction
Language:Java 202
mahmoudparsian / big-data-mapreduce-course
Big Data Modeling, MapReduce, Spark, PySpark @ Santa Clara University
pyspark-algorithms-book mapreduce santa-clara-university pyspark data-algorithms data-transformation data-partition partitioning-algorithms algorithms mapreduce-python mapreduce-algorithm apache-hadoop apache-spark big-data data-analysis data-engineering glossary monoid spark-dataframes spark-rdd
Language:HTML 161
Thomas-George-T / Movies-Analytics-in-Spark-and-Scala
Data cleaning, pre-processing, and Analytics on a million movies using Spark and Scala.
spark spark-sql rdd shell-script big-data dataframes movielens-data-analysis big-data-analytics big-data-projects spark-programs scala movielens-dataset analytics case-study spark-dataframes spark-rdd hadoop spark-scala movies
Language:Scala 94
spider-123-eng / Spark
Apache Spark is a fast, in-memory data processing engine with elegant and expressive development API's to allow data workers to efficiently execute streaming, machine learning or SQL workloads that require fast iterative access to datasets.This project will have sample programs for Spark in Scala language .
spark-streaming-data streaming consumer spark-transformations spark-to-cassandra-connection spark-kafka-integration spark-dataframes spark-joins spark-hive-context spark-jdbc-connection spark-with-mangodb spark-aggregations-using-dataframe kafka-producer spark-sql spark-use-cases cassandra-installation parquet spark-datadog spark-mangodb spark-catalog-api
Language:Scala 55
jubins / Spark-And-MLlib-Projects
This repository contains Spark, MLlib, PySpark and Dataframes projects
spark mllib spark-ml sparksql spark-streaming spark-dataframes pyspark python aws-ec2
Language:Jupyter Notebook 49
yennanliu / spark-etl-pipeline
Various data stream/batch process demo with Apache Scala Spark 🚀
spark docker spark-streaming spark-batch spark-sql spark-rdd spark-dataframes scala dockerfile pipeline twitter sbt sbt-plugin sbt-assembly stream-processing apache-spark
Language:Scala 11
jkoth / Data-Lake-with-Spark-and-AWS-S3
Create Data Lake on AWS S3 to store dimensional tables after processing data using Spark on AWS EMR cluster
apache-spark aws-s3 pyspark data-lake etl-pipeline dimensional-model star-schema json-format udacity-nanodegree data-engineering spark-dataframes aws-emr
Language:Python 9
neerajkesav / SparkJavaExamples
Apache Spark Basics - Java Examples
java apache-spark spark spark-actions sparkcontext sparkjava spark-dataframes spark-java spark-transformations spark-basics learn-spark spark-example flatmap rdd hdfs hadoop javardd
Language:Java 9
NashTech-Labs / Sparkathon
A library having Java and Scala examples for Spark 2.x
spark scala java-8 apache-spark knoldus spark-streaming spark-sql spark-dataframes spark-dataset spark-structured-streaming rdd spark-mllib spark-ml
Language:Java 7
afzals2000 / spark-bigquery-parallel
Spark BigQuery Parallel
apache-spark bigquery google-cloud-platform pyspark pyspark-python spark spark-dataframes spark-scala spark-sql
Language:Scala 6
MaxineXiong / Item-based-collaborative-filtering
This project utilizes PySpark DataFrames and PySpark RDD to implement item-based collaborative filtering. By calculating cosine similarity scores or identifying movies with the highest number of shared viewers, the system recommends 10 similar movies for a given target movie that aligns users’ preferences.
apache-spark pyspark spark-dataframes spark-rdd python spark collaborative-filtering movie-recommendation
Language:Jupyter Notebook 4
maziyarpanahi / spark-quickie
Getting started with Apache Spark
spark spark-dataframes
3
mayankrawat / CSVJoin
Use this project to join data from multiple csv files. Currently in this project we support one to one and one to many join. Along with this you can find how to use kafka producer efficiently with spark.
apachespark spark one-to-many-join one-to-one-join kafka kafka-producer-spark one-to-many-joins-spark join-apache-spark kafka-with-spark kafka-producer spark-dataframes spark-kafka-integration spark-kafka kafka-spark integrate-kafka-spark one-to-many spark-sql spark-java java spark-csv
Language:Java 2
NashTech-Labs / spark-dataframes-meetup
spark sbt scala spark-dataframes meetup knoldus
Language:Scala 2
ninjeanne / datastorm
Data Science and Engineering project - Programming for Big Data @ Simon Fraser University (SFU)
aws aws-dynamodb aws-emr aws-lambda aws-s3 big-data bigdata data data-engineering data-science data-visualization python3 spark spark-dataframes spark-mllib spark-sql
Language:Jupyter Notebook 2
thenickben / SplitCSV-Spark
Big Data - Split a large CSV file into N smaller ones and save them into the local disk
big-data spark scala spark-dataframes
Language:Scala 2
Vivek-Murali / CarCrashAnalysis
BCG GAMMA CASE STUDY
data-engineering etl pyspark spark-dataframes
Language:Jupyter Notebook 2
AliElsaeid / Predicting-Kickstarter-Campaign-Success-Using-Machine-Learning
Predict the success of Kickstarter campaigns using machine learning. Analyze project data including financial goals, pledge amounts, categories, and outcomes. Perform data cleaning, queries, visualizations, and build models to forecast campaign success, helping entrepreneurs optimize their funding strategies
big-data data-engineering spark-dataframes spark-machine-learning
Language:Jupyter Notebook 1
anshul1004 / MutualFriends
Implementation of Hadoop and Spark
hadoop hadoop-mapreduce hadoop-cluster hadoop-hdfs spark spark-sql spark-dataframes pyspark pyspark-python pyspark-dataframe-format social-media social-media-analysis social-media-mining big-data big-data-analytics mapreduce mapreduce-java mapreduce-python mutual-friends yelp-dataset
Language:Java 1
chinmayms / propinvestment
Predict Current Property Investment opportunities using Data Analysis (Big Data Spark ML)
apache spark django pandas spark-dataframes spark-ml
Language:Python 1
LucasDLee / CMPT-353-Final-Project
This is our final project for SFU's CMPT 353 taught by Greg Baker during Summer 2023
data-science python spark-dataframes statistics university-project
Language:Python 1
mohammad-safari / spark-hadoop-exercise
spark hadoop exercise of cloud computing course - aut 1402-1403 fall
big-data hadoop hadoop-yarn hdfs mapreduce spark spark-dataframes spark-rdd spark-sql
Language:Jupyter Notebook 1
RahulGupta16 / Pyspark-Theory-and-Code-Basics
Pyspark serves as a Python interface to Apache Spark, enabling the execution of Python and SQL-like instructions for the manipulation and analysis of data within a distributed processing framework.
apache-spark data-engineering pyspark python3 rdd spark-dataframes sparksql sql
Language:Jupyter Notebook 1
rajeshsantha / MonitoredStructuredStreaming
Repository for Spark structured streaming use case implementations.
spark-structured-streaming spark-streaming-kafka spark-streaming scala spark-dataframes kafka apache-spark
Language:Scala 1
SevakAvet / spark-session-enricher
Calculate user sessions & stats on top of them for imaginary ecom site using Spark sql & aggregations
scala spark spark-sql spark-dataset spark-dataframes scala-spark ecommerce petproject pet-project sessionize
Language:Scala 1
zaha2020 / Big_Data
This repository contains the implementation of a wide variety of BigData Projects in different applications of NoSQL databases, Spark, Data Pipelines, and map-reduce. These projects include university projects and projects implemented due to interest in BigData.
cassandra hive neo4j spark spark-dataframes spark-graphx spark-sql clickhouse cypher elasticsearch kafka kafka-streams kibana map-reduce mongodb nosql-database sql stock-market superset big-data
Language:Jupyter Notebook 1
Bcromas / pyspark_projects
A collection of small projects exploring PySpark features and functionality including packages and modules, algorithms, and general data science techniques.
spark-streaming spark-sql spark-dataframes spark-mllib pyspark
Language:Jupyter Notebook 0
codyle50 / spark-bigquery-parallel
apache-spark bigquery google-cloud-platform pyspark pyspark-python spark spark-dataframes spark-sql
Language:Scala 0
lalithvenkat / Analysis-of-M50-Highway-data-using-Spark
This Repo contains analysis of large data using Spark
spark-streaming spark-sql spark-dataframes hdfs hadoop
Language:Jupyter Notebook 0
on2e / ntua-atdb
Advanced Topics in Databases course project - NTUA ECE - 2022-23
apache-hadoop apache-spark ntua-ece pyspark spark-dataframes spark-rdd advanced-database
Language:Python 0
prajakta-3-patil / e-commerce-analysis
This project is about exploring and analysing E-commerce data. This primarily includes leveraging Apache Spark Dataframe API, joins, functions and aggregations to generate summarized results.
apache-spark pyspark python spark-dataframes
Language:Python 0
the-timoye / spark-examples
spark data-engin data-wrangling python spark-sql spark-dataframes
Language:Python 0
WazirRohiman / Apache_Spark_Basics
This series explores the basics of Apache Spark with the application of some practical elements of Spark, PySpark & SparkSQL
apache-spark jupyter-notebook pyspark python3 spark-dataframes spark-sql docker-compose kubernetes
Language:Jupyter Notebook 0
aravind2060 / spark-sql-on-flight-data
work with a flight dataset and use Spark SQL to analyze flight delays, airport traffic, and other key metrics
spark-dataframes spark-sql
Language:Python
nabilshadman / intro-to-spark-sql-and-dataframes
Exercise files and notebooks for learning Apache Spark DataFrames and SQL
apache-spark data-analysis data-science pyspark spark-dataframes spark-sql sql
Language:Jupyter Notebook

spark-dataframes

mahmoudparsian / pyspark-tutorial

26hzhang / StockPrediction

mahmoudparsian / big-data-mapreduce-course

Thomas-George-T / Movies-Analytics-in-Spark-and-Scala

spider-123-eng / Spark

jubins / Spark-And-MLlib-Projects

yennanliu / spark-etl-pipeline

jkoth / Data-Lake-with-Spark-and-AWS-S3

neerajkesav / SparkJavaExamples

NashTech-Labs / Sparkathon

afzals2000 / spark-bigquery-parallel

MaxineXiong / Item-based-collaborative-filtering

maziyarpanahi / spark-quickie

mayankrawat / CSVJoin

NashTech-Labs / spark-dataframes-meetup

ninjeanne / datastorm

thenickben / SplitCSV-Spark

Vivek-Murali / CarCrashAnalysis

AliElsaeid / Predicting-Kickstarter-Campaign-Success-Using-Machine-Learning

anshul1004 / MutualFriends

chinmayms / propinvestment

LucasDLee / CMPT-353-Final-Project

mohammad-safari / spark-hadoop-exercise

RahulGupta16 / Pyspark-Theory-and-Code-Basics

rajeshsantha / MonitoredStructuredStreaming

SevakAvet / spark-session-enricher

zaha2020 / Big_Data

Bcromas / pyspark_projects

codyle50 / spark-bigquery-parallel

lalithvenkat / Analysis-of-M50-Highway-data-using-Spark

on2e / ntua-atdb

prajakta-3-patil / e-commerce-analysis

the-timoye / spark-examples

WazirRohiman / Apache_Spark_Basics

aravind2060 / spark-sql-on-flight-data

nabilshadman / intro-to-spark-sql-and-dataframes