AnTonyPapako / Audio-Diary

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Audio-Diary

Εγκατάσταση

Για να λειτουργήσει ως ορίστηκε η εφαρμογή χρειάζεται να κατεβάσετε και την έτοιμη εξωτερική βιβλιοθήκη μετατροπής ομιλίας σε κείμενο wav2vec2-0 και να την αποσυμπιέσετε στον φάκελο με τα παραπάνω αρχεία.

Είτε μπορείτε να τα κατεβάσετε όλα μάζι από τον Google Drive φάκελο.

Οδηγίες χρήσης - Λειτουργίες

  • Control - Delete

    Ο χρήστης επιλέγει και διαγράφει ένα από τα αρχεία καταγραφής, είτε ήχου είτε κειμένου.

  • Control - Play Voice

    Ο χρήστης επιλέγει και αναπαράγει ένα αρχείο ήχου.

  • Control - Read Text

    Ο χρήστης επιλέγει και ανοίγει ένα αρχείο κειμένου.

  • Record - Start

    Ο χρήστης αρχίζει και καταγράφει τον εαυτό του, η ομιλία έπειτα αποθηκεύεται σε αρχείο ήχου μετά το πάτημα του πλήκτρου Stop. Ενδιάμεσα δημιουργείται φάκελος για την αποθήκευση των εγγραφών με όνομα σύμφωνα τον μήνα που έγινε η καταγραφή. Για διευκόλυνση τα αρχεία ονομάζονται ως εξής YYYY.MM.DD--HH-MM-SS .

  • Record - Stop

    Εφόσον ο χρήστης δεν επιθυμεί να συνεχίσει περαιτέρω την καταγραφή, πατά το συγκεκριμένο πλήκτρο και αποθηκεύει την ομιλία του σε αρχείο ήχου. Έπειτα μέσω έτοιμης βιβλιοθήκης μετατροπής από ομιλία σε ήχο, speech-to-text conversion, χρησιμοποιείται ο αλγόριθμος μετατροπής και το αποτέλεσμα καταγράφεται σε αρχείο κειμένου καθώς παράλληλα εμφανίζεται σε μέρος της εφαρμογής.

  • Plot

    Ο χρήστης μπορεί να δει τη συχνότητα της φωνής του που κατέγραψε προηγουμένως.

  • Update File - Start

    Σε περίπτωση που ο χρήστης επιθυμεί να προσθέσει επιπλέον ομιλία σε καταγραφή που έχει ήδη αποθηκεύσει. Αφού αρχικά επιλέξει το αρχείο ήχου που θέλει να καταγράψει περαιτέρω.

  • Update File - Stop

    Εφόσον ο χρήστης δεν επιθυμεί να συνεχίσει περαιτέρω την καταγραφή, πατά το συγκεκριμένο πλήκτρο και αποθηκεύει την ομιλία του σε αρχείο ήχου. Τρέχει ο αλγόριθμος μετατροπής από ομιλία σε ήχο, αφού έχει τροποποιηθεί το αρχείο ήχου.

  • Emotion Recognition

    Η κύρια λειτουργία της εφαρμογής που αναγνωρίζει, με ανάλογο ποσοστό ακρίβειας, συναισθήματα. Υπάρχουν τέσσερα αισθήματα που κατανοεί η εφαρμογή, Happiness, Anger, Elation, Sadness. Ξεκινάει το στάδιο εξαγωγής χαρακτηριστικών μέσω του αλγορίθμου MFCC, Mel Frequency Cepstral Coefficient, από τη βάση με ηχητικά αρχεία που έχουν κατηγοριοποιηθεί σύμφωνα με τα παραπάνω συναισθήματα, train data. Για την εκπαίδευση χρησιμοποιείται ο αλγόριθμος μάθησης KNN, επιλέχθηκε με το κριτήριο της ταχύτητας ακόμη και εάν χάνεται μέρος ακρίβειας σε αντίθεση με Multi SVM που έχει καλύτερη απόδοση αλλά καθυστερεί πάρα πολύ. Στον κώδικα υπάρχουν και οι δύο αλγόριθμοι εκπαίδευσης, όμως ο Multi SVM είναι σημειωμένος με σχόλια και σε περίπτωση που ο χρήστης επιθυμεί να τον δοκιμάσει απλώς βγάζει αυτόν τον αλγόριθμο από τα σχόλια και προσθέτει στον άλλον σχόλια. Έπειτα επιλέγει ένα αρχείο ήχο και του δίνεται η πρόβλεψη σχετικά με το συναίσθημα. Ως τελικό σημείο εμφανίζεται το διάγραμμα MFCC ανάλογα με το αρχείο που επέλεξε προηγουμένως.

About