Στόχος του project είναι να υλοποιήσει το merge-join σαν iterator, ο οποίος θα μπορεί να χρησιμοποιηθεί για pipelining. Το πεδίο συνένωσης είναι το πρώτο. Σαν παραμέτρους μπορούμε να βάλουμε και ποια άλλα πεδία θέλουμε να εμφανίζονται.
Τα δεδομένα χρησιμοποιούνται από την βάση της IMDB (Internet Movie Database).
link
Στην αρχή ζητείται ένα combo για τις παραμέτρους του project.
- scan: Όταν θέλουμε απλά να διαβάσει το αρχείο εισόδου.
- merge-join: Όταν θέλουμε να εκτελέσει merge-join σε δύο αρχεία.
Τα αρχεία εισόδου πρέπει να βρίσκονται σε φάκελο "data".
Μέσα στον φάκελο "data" τους φακέλους:
- name.basics.tsv
- title.akas.tsv
- title.basics.tsv
- title.crew.tsv
- title.episode.tsv
- title.pincipals.tsv
- title.ratings.tsv
Οι οποίοι βρίσκονται στα δεδομένα της βάσης.
Παράδειγμα για είσοδο "scan" - "scan".
Αρχεία:
- name.basics.tsv
- title.akas.tsv
Πεδία:
MIT © 2020 Thomas Siozos