seungwonB / aws-rekognition-page

인물을 분석하고 글자를 읽어서 음성으로 추출

프로젝트 명

✔️From the Picture✔️

프로젝트 멤버

방승원(팀장) : 웹 사이트 제작(Front, Back) 및 배포(AWS), 생성한 API를 서버에서 받고 반환, AWS Polly를 활용하여 웹상에서 음성 즉각 출력, Github 관리, PPT 제작
이영빈(팀원) : AWS Rekognition 활용(S3버킷에 저장된 이미지 활용-인물 분석, 유명 인사 탐지, 글자 추출, 응답을 문장으로 재구성), AWS Translate 활용(유명 인사 한글로 번역), 보고서 작성

프로젝트 소개

저시력자들, 시각장애인 분들을 위해 사진을 설명해주는 프로그램이다.
이미지에서 인물을 분석하여 또는 글자를 추출하여 음성으로 출력한다. 드라마 '스타트업'에서 영감을 얻어 시작하였다.

개발 내용

사용자가 웹상에서 사진을 찍으면 그 사진을 S3의 bucket에 올린다. 사진을 Rekognition을 이용하여 분석한다.
그 후 Polly를 사용하여 웹상에서 음성을 출력해준다.
JS와 Flask로 웹페이지를 제작하였다.
AWS EC2를 이용하여 배포를 하였다. (FileZila와 Git bash 활용)
AWS의 Machine Learning 서비스인 Rekognition을 활용하였다.
Python의 boto3를 이용하여 Rekognition을 구현하였다.
영어 번역을 위해서는 Translate을 사용하였다.
Rekognition을 활용하여 얻은 Response를 문장으로 재조합하였다.
그렇게 생긴 문장을 서버에서 받아 웹에 반환해주었다. 반환받은 문장은 웹에서 바로 AWS Polly를 활용하여 음성으로 추출되었다.

프로젝트 개발 결과물 소개 (+ 다이어그램)

개발 결과물을 사용하는 방법 소개

초기화면에서 음성으로 안내가 나온다.
사진을 촬영하고 인물, 글자 버튼 중 하나를 누르면 된다.
잠시 기다리면 텍스트와 함께 음성이 출력된다.
연예인을 정확히 인식하고 인물을 분석해주었다.

일반인도 닮은 유명인사가 출력되고 안경 쓴 디테일까지 잡아준다.

다수의 인물도 분석해준다.

이미지에서 텍스트를 추출한다.

개발 결과물의 필요성 및 활용방안

저시력자, 시각장애인들이 보지 못하거나 보기 힘든 세상을 조금이나마 볼 수 있게 도와준다. 때문에 그들에게 소소한 즐거움이나 도움이 될 것이다.
현재 개발 결과물은 그래도 버튼을 보고 눌러야하기 때문에 시력이 아예 없으신 분들은 이용하기가 힘들다. 그들의 몸에 소형카메라를 부착하여 실시간으로 앞의 영상을 몇 초 단위로 이미지로 전달한 후 이어폰을 통해 음성으로 인식하는 방법도 있을 것이다. 또한 음성인식 API를 이용하여 '사진 찍어줘'와 같이 그들이 보면서 클릭하지 않아도 사용할 수 있는 방법들도 후에 개발해보면 더욱 많은 사용자들이 이용할 수 있을 것이다.

AWS Detail 설정 정리

https://velog.io/@swbang/AWS-s3-bucket에-이미지-올리기
https://velog.io/@swbang/AWS-Polly
https://velog.io/@swbang/AWS-EC2를-이용한-웹사이트-배포

About

인물을 분석하고 글자를 읽어서 음성으로 추출

Languages

Language:HTML 61.5%Language:Python 38.5%