ndb796 / korean_family_dataset

AI Hub "가족 관계가 알려진 얼굴 이미지" 데이터 세트의 전처리 및 가공

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

가족 관계 데이터 세트(Korean Family Dataset)

AI Hub "가족 관계가 알려진 얼굴 이미지" 데이터 세트의 전처리 및 가공 코드 모음

원본 데이터 세트 살펴 보기

/family_dataset
  /1.Training
    /labeled
      TL0001.zip
      TL0002.zip
      ...
      TL0299.zip
    /original
      TS0001.zip
      TS0002.zip
      ...
      TS0299.zip
  /2.Validation
    /labeled
      VL0801.zip
      VL0802.zip
      ...
      VL0900.zip
    /original
      VS0801.zip
      VS0802.zip
      ...
      VS0900.zip
  • 이때 각 original 폴더에 포함된 압축 파일은 다음과 같이 구성된다.
  • 각 폴더는 A(친가) 혹은 B(외가) 폴더만 존재한다.
# 예시 폴더 구성
/VS0801
  /A(친가)
    /1.Family
    /2.Individuals
    /3.Age
  /B(외가)
    /1.Family
    /2.Individuals
    /3.Age
  • "3.Age" 폴더에 존재하는 이미지는 {가족 번호}_AGE_{지위}_{나이}_{클래스} 형식을 따른다.
    • 지위: "GF", "GM", "F", "M", "S", "D", "S2", "S3", "S4", "D2", "D3", "D4"
      • GF: 할아버지
      • GM: 할머니
      • F: 아버지
      • M: 어머니
      • S: 아들
      • D: 딸
    • 나이: 0~80
      • 단, 이는 데이터 세트 구축 당시의 나이 정보라서 촬영 당시 나이는 "클래스"를 확인해야 한다.
    • 클래스: "a1", "a2", "a3", ...
      • (a): 0-6세
      • (b): 7-12세
      • (c): 13-19세
      • (d): 20-30세
      • (e): 31-45세
      • (f): 46-55세
      • (g): 56-66세
      • (h): 67-80세

데이터 전처리

  • 모든 "3.Age" 폴더만 확인하여 전체 데이터 세트를 전처리한다.
  • 결과로 나오는 images 폴더는 13,068개의 이미지로 구성된다.
/images
  F0001_AGE_D_18_a1.jpg
  F0001_AGE_D_18_a2.jpg
  ...
  F0900_AGE_M_57_f1.jpg
  F0900_AGE_M_57_f2.jpg
  • custom_dataset.csv는 13,068개의 이미지에 대한 메타 정보를 가진다.
    • 속성(attribute) 목록: 'family_id', 'person_id', 'age_class', 'image_path'

이미지 크기 줄이기

  • 전처리된 이미지 중에는 해상도가 큰 이미지가 많다.
  • 모든 이미지를 128 X 128로 바꾼 버전과 256 X 256로 바꾼 버전을 만들 수 있다.
  • 소스 코드

고정된 평가 데이터 세트 만들기

  • 평가를 위하여 10,000개의 (얼굴 이미지, 얼굴 이미지) 쌍을 만들 수 있다.
    • 5,000 쌍은 가족(positive), 5,000 쌍은 비가족(negative)로 구성할 수 있다.
  • 소스 코드
/fixed_val_dataset
  /positive
    /0
    /1
    ...
    /4999
  /negative
    /0
    /1
    ...
    /4999

최종적으로 전처리된 데이터 세트들

  • custom_korean_family_dataset_resolution_128.zip
  • custom_korean_family_dataset_resolution_256.zip
  • 데이터 세트는 학습(training), 검증(validation), 테스트(test) 목적으로 나뉜다.
    • 학습 데이터 세트: (F0001 ~ F0299) folders have 10,025 images.
    • 검증 데이터 세트: (F0801 ~ F0850) folders have 1,539 images.
    • 테스트 데이터 세트: (F0851 ~ F0900) folders have 1,504 images.

가족 관계 예측 네트워크 학습 예시

  • 기본 Siamese 네트워크 코드: 링크
  • 가중치 기반의 Siamese 네트워크 코드(테스트 정확도 60.24%): 링크

About

AI Hub "가족 관계가 알려진 얼굴 이미지" 데이터 세트의 전처리 및 가공


Languages

Language:Jupyter Notebook 100.0%Language:Python 0.0%