Valhalla, ένα μοντέλο μηχανικής μάθησης που μαθαίνει τη γλώσσα όπως τα μωρά

Νέα

Μιλάμε και μιμούμαστε τον τρόπο που μαθαίνουμε γλώσσες ως νεογέννητα. Δεν ξεκινάμε διαβάζοντας ακατέργαστο κείμενο, το οποίο απαιτεί μια θεμελιώδη επίγνωση του σύμπαντος καθώς και μια περίπλοκη ικανότητα ανάλυσης και συμπερασμάτων περιγραφών και σχέσεων. Αντίθετα, οι άνθρωποι ξεκινούν το γλωσσικό τους ταξίδι δείχνοντας και αλληλεπιδρώντας με το περιβάλλον τους, βασίζοντας τις λέξεις τους και κατανοώντας το νόημά τους στον φυσικό και κοινωνικό κόσμο. Θα μπορέσουμε τελικά να κατασκευάσουμε ολόκληρες προτάσεις για να εξηγήσουμε περίπλοκες σκέψεις. Ομοίως, η χρήση πρόσθετων αισθητηριακών πληροφοριών, όπως πολυμέσα, σε συνδυασμό με νέες και άγνωστες λέξεις, όπως κάρτες flash με εικόνες, βοηθά στην κατάκτηση της γλώσσας και στη διατήρηση. Επομένως, οι άνθρωποι μπορούν να κατανοήσουν σωστά νέες, αόρατες προτάσεις στο πλαίσιο χωρίς τη χρήση υποστηρικτικών μέσων με επαρκή τεχνογνωσία.

Τι είναι το VALHALLA;

Το VALHALLA είναι ένα νέο μοντέλο μηχανικής μάθησης που αναπτύχθηκε από ερευνητές από το MIT, την IBM και το Πανεπιστήμιο της Καλιφόρνια στο Σαν Ντιέγκο, στο οποίο ένα εκπαιδευμένο νευρωνικό δίκτυο αντιλαμβάνεται ένα κείμενο πηγής σε μία γλώσσα, διαισθάνεται το πώς μοιάζει μια εικόνα και στη συνέχεια χρησιμοποιεί και τα δύο για να μεταφραστούν σε μια γλώσσα-στόχο. Οι ερευνητές παρατήρησαν ότι η μέθοδός τους υπερέχει της μετάφρασης μόνο κειμένου όσον αφορά την ακρίβεια της αυτόματης μετάφρασης. Βοήθησε επίσης τις περιστάσεις με εκτεταμένες φράσεις, γλώσσες με περιορισμένους πόρους και καταστάσεις στις οποίες ένα μέρος της αρχικής πρότασης δεν είναι διαθέσιμο για αυτόματη μετάφραση.

Η μηχανική μετάφραση είναι μια «εξαιρετικά πρακτική τεχνολογία που χρησιμοποιείται από εκατομμύρια ανθρώπους καθημερινά», σύμφωνα με τη συν-συγγραφέα της μελέτης Yoon Kim, επίκουρη καθηγήτρια στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του MIT με δεσμεύσεις με την Επιστήμη των Υπολογιστών και την Τεχνητή Νοημοσύνη .Laboratory (CSAIL) και το MIT-IBM Watson AI Lab. Επειδή «όταν οι άνθρωποι εκτελούν εργασίες επεξεργασίας γλώσσας, το κάνουμε μέσα σε έναν γειωμένο, τοποθετημένο κόσμο», λέει ο Kim, «υπήρξε μια ενδιαφέρουσα εξέλιξη στον τρόπο με τον οποίο κάποιος μπορεί να χρησιμοποιήσει πληροφορίες μη κειμένου – για παράδειγμα, εικόνες, ήχο ή άλλες βασικές πληροφορίες — για την αντιμετώπιση πρακτικών εργασιών που αφορούν τη γλώσσα». Οι επιστήμονες υπέθεσαν ότι η σύζευξη παραισθήσεων με κείμενο κατά τη διάρκεια της εξαγωγής συμπερασμάτων μιμείται αυτή τη διαδικασία, δίνοντας πλαίσιο για αυξημένη απόδοση σε υπάρχοντα συστήματα τελευταίας τεχνολογίας, τα οποία βασίζονται μόνο στο κείμενο.

Μαθαίνοντας να έχουμε παραισθήσεις με βάση εικόνες

Προτού τολμήσουμε μόνοι μας να μάθουμε νέες γλώσσες και να μεταφράσουμε, μας δίνονται συχνά παραδείγματα και εξασκούμαστε. Τα συστήματα μηχανικής μετάφρασης είναι παρόμοια. Ωστόσο, εάν χρησιμοποιούνται εικόνες κατά τη διάρκεια της εκπαίδευσης, αυτές οι προσεγγίσεις AI θα απαιτήσουν επίσης οπτική βοήθεια για αξιολόγηση, περιορίζοντας την εφαρμογή τους, σύμφωνα με την Panda.

“Μπορεί να μην έχετε εικόνα σε σχέση με το κείμενο πηγής σε πραγματικές ρυθμίσεις.” Επομένως, αντί να χρησιμοποιούμε μια εξωτερική εικόνα ως είσοδο κατά τη διάρκεια της εξαγωγής συμπερασμάτων, μπορούμε να αξιοποιήσουμε την οπτική ψευδαίσθηση – την ικανότητα να συλλάβουμε οπτικά σκηνικά – για να βελτιώσουμε τα συστήματα μηχανικής μετάφρασης; 

Για να γίνει αυτό, οι ερευνητές χρησιμοποίησαν μια αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή με δύο μετασχηματιστές, ένα είδος μοντέλου νευρωνικού δικτύου που είναι κατάλληλο για είσοδο που εξαρτάται από την ακολουθία, όπως η γλώσσα, και μπορεί να δώσει προσοχή σε σημαντικές λέξεις και σημασιολογία προτάσεων. Ο ένας μετασχηματιστής δημιουργεί μια οπτική ψευδαίσθηση, ενώ ο άλλος χρησιμοποιεί τις εξόδους του πρώτου μετασχηματιστή για να ολοκληρώσει την πολυτροπική μετάφραση.

Υπάρχουν δύο ροές μετάφρασης κατά τη διάρκεια της προπόνησης: μια φράση πηγής και μια εικόνα βασικής αλήθειας σε συνδυασμό με αυτήν, και η ίδια πρόταση πηγής έχει οπτικά παραισθήσεις για να δημιουργήσει ένα ζεύγος κειμένου-εικόνας. Συνδυάστε την εικόνα και την πρόταση της βασικής αλήθειας σε αναπαραστάσεις που μπορούν να χειριστούν οι μετασχηματιστές. στην περίπτωση της πρότασης, κάθε λέξη είναι μια ένδειξη. Το αρχικό κείμενο διαμορφώνεται για άλλη μια φορά, αλλά αυτή τη φορά μέσω του μετασχηματιστή οπτικής ψευδαίσθησης, ο οποίος παράγει μια ψευδαίσθηση, η οποία είναι μια ευδιάκριτη απεικόνιση της πρότασης. Οι ερευνητές χρησιμοποίησαν μια αυτόματη παλινδρόμηση για να ελέγξουν τη συνάφεια μεταξύ της βασικής αλήθειας και των παραισθήσεων, όπως τα ομώνυμα: μια αναφορά σε ένα ζώο «νυχτερίδα» δεν θεωρείται ψευδαίσθηση ως ρόπαλο του μπέιζμπολ. Ο μετασχηματιστής παραισθήσεων στη συνέχεια βελτιστοποιεί με βάση τη διαφορά μεταξύ τους.

Τα δύο σετ διακριτικών, το καθένα από τα οποία περιέχει την αναπαράσταση της φράσης και είτε την παραισθησιακή εικόνα είτε την εικόνα της βασικής αλήθειας, στη συνέχεια επεξεργάζονται ταυτόχρονα μέσω του πολυτροπικού μετασχηματιστή μετάφρασης. Τα αποτελέσματα μετάφρασης κειμένου με διακριτικό συγκρίνονται μεταξύ τους και με την πρόταση-στόχο σε άλλη γλώσσα ώστε να είναι συγκρίσιμα. Τυχόν ασυμφωνίες στη συνέχεια ανατροφοδοτούνται στον μετασχηματιστή μετάφρασης για πρόσθετες τροποποιήσεις. Επειδή οι φωτογραφίες είναι απίθανο να είναι προσβάσιμες σε συνηθισμένες συνθήκες, η ροή εικόνων επίγειας αλήθειας απενεργοποιείται κατά τη διάρκεια της δοκιμής.

Το επιθυμητό κείμενο μπορεί να οπτικοποιηθεί

Οι ερευνητές έβαλαν το VALHALLA σε δοκιμασία έναντι άλλων πολυτροπικών συστημάτων αιχμής και μεταφραστικών συστημάτων μόνο κειμένου. Χρησιμοποίησαν διαθέσιμα σύνολα δεδομένων αναφοράς, συμπεριλαμβανομένων φωτογραφιών βασικής αλήθειας και προτάσεων πηγής, καθώς και ένα σύνολο δεδομένων μετάφρασης ειδήσεων μόνο σε κείμενο. Οι ερευνητές το αξιολόγησαν σε 13 διαφορετικές εργασίες, συμπεριλαμβανομένης της μετάφρασης σε γλώσσες με καλούς πόρους (όπως Αγγλικά, Γερμανικά και Γαλλικά), γλώσσες με χαμηλό επίπεδο πόρων (όπως αγγλικά προς ρουμανικά) και μη αγγλικές γλώσσες (όπως ισπανικά προς γαλλικά).  Η ομάδα πειραματίστηκε επίσης με διαφορετικά μεγέθη μοντέλων μετασχηματιστών, πώς η ακρίβεια ποικίλλει ανάλογα με το μήκος της πρότασης και τη μετάφραση σε ένα περιορισμένο κείμενο, όπου κομμάτια του κειμένου ήταν κρυμμένα από μηχανικούς μεταφραστές.

Οι ερευνητές ανακάλυψαν σημαντικές αυξήσεις στην οικονομία δεδομένων σε σχέση με τις προσεγγίσεις μετάφρασης μόνο κειμένου, καθώς και το γεγονός ότι τα μικρότερα μοντέλα είχαν καλύτερη απόδοση από το μεγαλύτερο βασικό μοντέλο. Η αποτελεσματικότητα της VALHALLA σε σχέση με άλλες προσεγγίσεις βελτιώθηκε καθώς οι προτάσεις έγιναν μεγαλύτερες, κάτι που οι ερευνητές απέδωσαν στην παρουσία πιο διφορούμενων όρων. Η VALHALLA μπόρεσε να ανακτήσει και να μεταφράσει το αρχικό κείμενο σε περιπτώσεις όπου μέρος της φράσης αποκρύφτηκε, κάτι που εξέπληξε την ομάδα.

Ενώ το VALHALLA είναι αποτελεσματικό, οι ερευνητές επισημαίνουν ότι η μέθοδος έχει μειονεκτήματα, όπως η ανάγκη να επισημαίνονται ζεύγη προτάσεων με μια εικόνα, κάτι που μπορεί να κάνει τη συλλογή δεδομένων πιο δαπανηρή. Στον επίγειο τομέα του, ξεπερνά επίσης τις ειδήσεις που αφορούν μόνο κείμενο. Επιπλέον, όπως επισημαίνουν η Kim και η Panda, μια μέθοδος όπως η VALHALLA εξακολουθεί να είναι ένα μαύρο κουτί, με την υπόθεση ότι οι παραισθήσεις δίνουν σημαντικές πληροφορίες και η ομάδα ελπίζει να ερευνήσει τι και πώς μαθαίνει το μοντέλο να επαληθεύει τις τεχνικές τους.

Πηγή: analyticsinsight.net

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *