yunho0130 / start-RL

<Do it 강화학습 입문(Getting Started with Deep Reinforcement Learning)> 소스코드 저장소

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

6장_Azure, Ray 워커 접속이 잘 안 되네요

theikim opened this issue · comments

•환경: 윈도우10(My PC) // 우분투18 2세대 가상 머신 접속

Putty 사용-X11 forward 세팅(GUI)
-firefox 실행되고, dashboard 확인/글카 드라이버 안 잡음

•가상 머신 1ea는 확인 완료

★마스터 / 슬레이브(워커) 접속이 쉽지 않네요

  1. Azure 웹사이트
    마스터 : 인바운드 6379 포트 추가
    슬레이브: 인바운드 6379 포트 추가

★책에서는 3389 포트 추가로 되어있음
3389, 8080, * 도 했는데 별 반응 없네요

  1. 우분투 18 가상 머신
    *포트허용
    sudo iptables -I INPUT 1 -p tcp --dport 6379 -j ACCEPT

    *Ray 시작

    1. 마스터 실행
      ray start --head --port=6379 --block

    2. 슬레이브 실행
      ray start --address='10.5.0.4:6379' --redis-password='5241590000000000'

슬레이브에서
telnet 10.5.0.4 6379
계속 trying 뜨는거 보면, ★방화벽에서 막고 있는데★, 더 이상은 모르겠네요 ^^

•설치하면서 특이사항
※U18 파이썬 버전: 책_py 3.8.5
콘다 생성시 3.9 로 변경되서 // ★py 3.8.3 지정해서 설치함 // 텐서 2.6 // 케라스 2.6 (두개 일치)
conda create --name ray python=3.8.3
conda install --name ray pip python=3.8.3

※텐서 설치 후 // 케라스 추가 설치함
conda install --name ray tensorflow -y
pip install keras==2.6.*
이후 Train 가능

안녕하세요?

3389는 Remote Desktop 연결을 위한 포트이기 때문에 Master - Slave간 연결에는 필요 없는 포트 입니다.

올려 주신 상황을 보면 Azure의 instance(Master, Slave)간 연결이 안되는 것 같습니다.

아래 내용 확인 해주세요.

  1. Master, Slave가 동일한 가상네트워크에 연결되어 있는지
  2. Master / Slave 네트워크 설정, 방화벽 설정 화면 캡쳐해주시면 문제 확인하는데 도움이 됩니다.

답변 주셔서 감사합니다.
좀 전에 쌍방향 통신 확인하였네요 ^^....글 수정해야 되겠다 싶어서 들어왔는데 답변 주셨네요
제가 놓친점이 ★같은 리소스 그룹★에서 만들어야 되는데.
다른 리소스 그룹으로 만들다 보니, 서로 연결이 안 되었네요

https://drive.google.com/file/d/16M72w_LKdDa_wjSPhlkXE7CG9QD4bPVU/view?usp=sharing
https://drive.google.com/file/d/1pmu9QzlPweGphEhEuty61oc3kzqoNziD/view?usp=sharing
https://drive.google.com/file/d/1OSVs4ivlTWTSYXrE-1b9uG8jfZUX8eS1/view?usp=sharing

Azure와 Ray 작업 과정 제 블로그에 정리해 봤습니다.
이미지 무단 사용.....죄송합니다. ^^
https://blog.naver.com/mdc1020/222627950134

잘 해결되셨다니 다행입니다. 혹시 나중에 개정판이 나오게 되면 관련된 내용 쉽게 이해할 수 있도록 업데이트 해 보겠습니다.