wargabasdat / Seleksi-2019-Tugas-1

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool


Seleksi 1 Warga Basdat 2019


Data Scraping

Specifications

  1. Lakukan data scraping dari sebuah laman web untuk memperoleh data atau informasi tertentu TANPA MENGGUNAKAN API

  2. Daftarkan judul topik yang akan dijadikan bahan data scraping pada spreadsheet berikut: Topik Data Scraping. Usahakan agar tidak ada peserta dengan topik yang sama. Akses edit ke spreadsheet akan ditutup tanggal 20 Mei 2019 pukul 20.00 WIB

  3. Dalam mengerjakan tugas, calon warga basdat terlebih dahulu melakukan fork project github pada link berikut: https://github.com/wargabasdat/Seleksi-2019-Tugas-1. Sebelum batas waktu pengumpulan berakhir, calon warga basdat harus sudah melakukan pull request dengan nama TUGAS_SELEKSI_1_[NIM]

  4. Pada repository tugas 1, calon warga basdat harus mengumpulkan file script, json hasil data scraping. repository terdiri dari folder src, data dan screenshots. Folder src berisi file script/kode yang WELL DOCUMENTED dan CLEAN CODE, folder data berisi file json hasil scraper sedangkan folder screenshot berisi tangkapan layar program.

  5. Peserta juga diminta untuk membuat simple build tools semacam Makefile, npm scripts, runjs yang bertujuan untuk membuat program dengan gampang di-build, di-run, dan di-clean.

Template makefile

all: clean build run

clean: # remove data and binary folder

build: # compile to binary (if you use interpreter, then do not implement it)

run: # run your binary

Template npm scripts

"scripts": {
  "build": // if any (optional)
  "clean": // delete node_modules
}

Template runjs

import { run } from 'runjs'

export function clean () {
}

export function start () {
}

export function build () {
  // if any (optional)
}
  1. Deadline pengumpulan tugas 1 adalah 31 Mei 2019 Pukul 23.59

  2. Hasil data scraping ini nantinya akan disimpan dalam DBMS dan digunakan sebagai bahan tugas analisis dan visualisasi data

  3. Sebagai referensi untuk mengenal data scraping, asisten menyediakan dokumen "Short Guidance To Data Scraping" yang dapat diakses pada link berikut: Data Scraping Guidance

  4. Tambahkan juga .gitignore pada file atau folder yang tidak perlu di-upload, NB : BINARY TIDAK DIUPLOAD

  5. Mohon memperhatikan etika dalam melakukan scraping

  6. JSON harus dinormalisasi dan harus di-preprocessing

Preprocessing contohnya :
- Cleaning
- Parsing
- Transformation
- dan lainnya
  1. Berikan README yang WELL DOCUMENTED dengan cara override file README.md ini. README harus memuat minimal konten :
- Description
- Specification (optional)
- How to use
- Ideas and innovations in utilizing the data
- JSON Structure
- Screenshot program (di-upload pada folder screenshots, di-upload file image nya, dan ditampilkan di dalam README)
- Reference (Library used, etc)
- Author


Selamat Ber-Eksplorasi!


Basdat Industries - Lab Basdat 2019

About


Languages

Language:Makefile 100.0%