neverthese / Distributed-ML-PySpark

🔨 使用Spark/Pytorch实现分布式算法,包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。参考刘铁岩《分布式机器学习》和CME 323课程

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

分布式机器学习

📚 如果船长的最高目标是保住他的船,那么他只能永远待在港口。

Open Source Love

1 简介

本项目为经典分布式机器学习算法的的PySpark/Pytorch实现, 主要参考了刘铁岩的《分布式机器学习》和CME 323: Distributed Algorithms and Optimization课程。主要内容包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。

2 环境依赖

运行以下命令安装环境依赖:

pip install -r requirements.txt

注意我的Python版本是3.8.13,Java版本11.0.15。注意PySpark是运行与Java虚拟机上的,且只支持Java 8/11,请勿使用更高级的版本。这里我使用的是Java 11。运行java -version可查看本机Java版本。

(base) ➜  ~ java -version 
java version "11.0.15" 2022-04-19 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.15+8-LTS-149)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.15+8-LTS-149, mixed mode)

最后,Pytorch的torch.distributed.rpc模块只支持Linux操作系统,故务必保证您在Linux操作系统上运行相关代码,否则会报错(参见GitHub issues: torch.distributed.rpc)。

3 目录

About

🔨 使用Spark/Pytorch实现分布式算法,包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。参考刘铁岩《分布式机器学习》和CME 323课程

License:MIT License


Languages

Language:Python 100.0%