parquet-files

There are 1 repository under parquet-files topic.

uber / petastorm
Petastorm library enables single machine or distributed training and evaluation of deep learning models from datasets in Apache Parquet format. It supports ML frameworks such as Tensorflow, Pytorch, and PySpark and can be used from pure Python code.
deep-learning machine-learning parquet parquet-files pyarrow pyspark pytorch sysml tensorflow
Language:Python 1812
Cinchoo / ChoETL
ETL framework for .NET (Parser / Writer for CSV, Flat, Xml, JSON, Key-Value, Parquet, Yaml, Avro formatted files)
avro cinchoo-etl csharp csv dotnet etl etl-framework flat json keyvalue parquet parquet-files parser reader writer xml yaml
Language:C# 815
parquet-go
parquet-go / parquet-go
High-performance Go package to read and write Parquet files
apache-parquet columnar-format golang parquet parquet-files performance
Language:Go 369
mjakubowski84 / parquet4s
Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.
akka akka-streams aws bigdata fs2 google-storage hadoop parquet parquet-files reader scala streams writer
Language:Scala 284
uhussain / WebCrawlerForOnlineInflation
Price Crawler - Tracking Price Inflation
aws-athena calculate-inflation-rates commoncrawl dash pandas-dataframe parquet-files petabytes python3 s3-storage spark
Language:Python 186
PRQL / prql-query
Query and transform data with PRQL
csv csv-converter csv-files data database datafusion duckdb json json-files parquet parquet-files parquet-tools parquet-viewer postgresql prql query querydsl
Language:Rust 128
hrbrmstr / sergeant
:guardsman: Tools to Transform and Query Data with 'Apache' 'Drill'
drill parquet-files sql dplyr r rstats apache-drill r-cyber
Language:R 126
minio / spark-select
A library for Spark DataFrame using MinIO Select API
amazon-s3 bigdata minio parquet-files pyspark sbt select spark spark-sql
Language:Scala 97
mongodb-labs / mongo-arrow
MongoDB integrations for Apache Arrow. Export MongoDB documents to numpy array, parquet files, and pandas dataframes in one line of code.
apache-arrow arrow mongodb numpy-arrays pandas-dataframe parquet-files python
Language:Python 95
adrianulbona / osm-parquetizer
A converter for the OSM PBFs to Parquet files
apache-spark converter openstreetmap parquet-files pbf
Language:Java 93
igor-suhorukov / openstreetmap_h3
OSM planet dump high performance data loader. Transform OpenStreetMap World/Region PBF dump into partitioned by H3 regions PostGIS pgsnapshot (lossless) OSM schema representation and/or into ArrowIPC/Parquet dumps
apach-sedona apache-arrow apache-spark arrow citusdb column-store converter duckdb geometry-processing geospatial java openstreetmap parquet parquet-files pbf pbf-format postgis postgresql world
Language:Java 92
hannes / miniparquet
Library to read a subset of Parquet files
parquet parquet-files parquet-cpp cpp cpp11 dependency-free
Language:C++ 44
strategicblue / parquet-floor
A lightweight Java library that facilitates reading and writing Apache Parquet files without Hadoop dependencies
parquet-files java parquet
Language:Java 43
DataTech-Solutions / Threat-Detection-and-Visualization
Threat Detection and Visualization
api datafactory datalake defender deltalake keyvault parquet-files postman powerbi rolebasedpermissions sccm serverlesssqlpool servicenow siem sql tenablesc dedicatedsqlpool active-directory azuremlstudio machine-learning
Language:TSQL 32
grouzen / zio-apache-parquet
Scala ZIO-powered Apache Parquet library
parquet scala zio apache-parquet big-data bigdata parquet-files parquet-format parquet-tools zio-streams zio2
Language:Scala 24
squey
squey / squey
Squey is a visualization software designed to interactively explore and understand large amounts of tabular data (this is the read-only mirror of https://gitlab.com/squey/squey)
cybersecurity data-analysis data-visualization parallel-coordinates pcap visualization exploratory-data-visualizations parquet parquet-viewer parquet-files data-science timeseries timeseries-analysis
Language:C++ 20
Data-Lake-Visualizer / vscode-parquet-visualizer
VScode extension for SQL querying and visualizing parquet- and CSV files
explorer parquet parquet-files parquet-viewer query viewer visualizer vscode-extension csv csv-export csv-files
Language:TypeScript 14
renesugar / FileConvert
Converts between file formats such as CSV and Parquet
csv apache-arrow apache-parquet parquet-files converts parquet-cpp
Language:C 14
vipinc007 / ParquetViewer
A web application for viewing Apache Parquet files . This is a Python + Flask application
parquet-files parquet-viewer pyarrow pandas flask-application python3
Language:HTML 13
trannguyenhan / tiki-data-analysis
Streaming data of Tiki with Kafka and processing with Spark, visualize with Elasticsearch & Kibana.
spark spark-streaming kafka hadoop parquet-files
Language:Java 11
Foroozani / BigData_PySpark
:bangbang: Handle Big Data for Machine Learning using Python and PySpark, Building ETL Pipelines with PySpark, MongoDB, and Bokeh
big-data apache-spark pyspark-mllib python3 parquet-files json partitioned-data mongodb-database
Language:Jupyter Notebook 8
hrbrmstr / sergeant-caffeinated
:guardsman: ☕️ Tools to Transform and Query Data with 'Apache' 'Drill'
drill parquet-files jdbc sql dplyr r rstats
Language:R 7
rupeshtiwari / kafka-spark-streaming-avro-in-python
Streaming kafka events using Spark in avro format and saving the events in parquet format
kafka spark pyspark avro python python3 parquet parquet-files confluent-kafka scala java aws msk real-time-streaming
Language:Python 5
alexkreidler / parquet2arrow
A fast and simple command-line (CLI) tool to convert a Parquet file to an Apache Arrow file
apache-arrow arrow cli command-line-tool converter parquet parquet-files
Language:Rust 4
Dorianteffo / vg-sales-glue-spark-terraform
ETL job with AWS Glue
aws aws-glue parquet-files python spark docker iac terraform
Language:Python 4
adrigrillo / NYCSparkTaxi
Apache Spark application to get the top ten frequent routes and profitable areas
big-data spark python taxi nyc parquet-files
Language:Jupyter Notebook 3
domvwt / parquet-inspector
A command line tool for inspecting parquet files with PyArrow.
cli parquet parquet-cli parquet-files parquet-generator parquet-tools parquet-viewer
Language:Python 3
gaborcsardi / nanoparquet-cli
Command line Docker app to query and manipulate Parquet files
cli docker parquet-files
Language:R 3
gpapag / spark-streaming-parquet
Scala code to read Parquet files as streams in Spark Streaming using Avro.
scala parquet parquet-files spark spark-streaming avro
Language:Scala 3
IgnacioMB / csvcli
A light-weight command-line tool to browse and query CSV, Excel and Apache Parquet files, regardless of their size.
csv-files csvcli delimiter parquet parquet-files
Language:Python 3
LouayMagdy / Weather-Stations-Monitoring
DDIA Course Project
bitcask design-patterns elasticsearch integration-patterns java-8 kafka kibana parquet-files python scala spark streaming docker k8s
Language:Java 3
msigrupo / node-red-contrib-parquet
Node-Red contrib that converts between a PARQUET string and its JavaScript object representation, in either direction.
dataset node-red nodejs parquet parquet-files processing
Language:HTML 3
m-kwiedor / lambda-merge-parquet
Merge Parquet Files on S3 with this AWS Lambda Function
parquet-files lambda fastparquet aws-s3
Language:Python 2
ostrokach / uniparc_xml_parser
UniParc dataset describing ~300 million protein sequences converted into relational tables accessible through Google BigQuery (and as Parquet files).
bioinformatics protein-sequences protein-domains bigquery parquet-files csv-files
Language:Rust 2
OtavioHenrique / parquimetro
Simple and small CLI to work with parquet files
cli parquet parquet-files parquet-tools parquet-viewer
Language:Go 2
sudip-padhye / EDA-of-Malware-Infected-Devices-using-PySpark
Explore factors associated with Malware Infection using Spark SQL
pyspark sparksql parquet-files rdd
Language:Jupyter Notebook 2

parquet-files

uber / petastorm

Cinchoo / ChoETL

parquet-go / parquet-go

mjakubowski84 / parquet4s

uhussain / WebCrawlerForOnlineInflation

PRQL / prql-query

hrbrmstr / sergeant

minio / spark-select

mongodb-labs / mongo-arrow

adrianulbona / osm-parquetizer

igor-suhorukov / openstreetmap_h3

hannes / miniparquet

strategicblue / parquet-floor

DataTech-Solutions / Threat-Detection-and-Visualization

grouzen / zio-apache-parquet

squey / squey

Data-Lake-Visualizer / vscode-parquet-visualizer

renesugar / FileConvert

vipinc007 / ParquetViewer

trannguyenhan / tiki-data-analysis

Foroozani / BigData_PySpark

hrbrmstr / sergeant-caffeinated

rupeshtiwari / kafka-spark-streaming-avro-in-python

alexkreidler / parquet2arrow

Dorianteffo / vg-sales-glue-spark-terraform

adrigrillo / NYCSparkTaxi

domvwt / parquet-inspector

gaborcsardi / nanoparquet-cli

gpapag / spark-streaming-parquet

IgnacioMB / csvcli

LouayMagdy / Weather-Stations-Monitoring

msigrupo / node-red-contrib-parquet

m-kwiedor / lambda-merge-parquet

ostrokach / uniparc_xml_parser

OtavioHenrique / parquimetro

sudip-padhye / EDA-of-Malware-Infected-Devices-using-PySpark