Τα μεγάλα γλωσσικά μοντέλα τεχνητής νοημοσύνης, όπως αποκαλούνται (Large Language Models-LLMs), μπορεί να φαίνονται έξυπνα σε επιφανειακό επίπεδο, αλλά δυσκολεύονται να κατανοήσουν, να αποτυπώσουν και να περιγράψουν τον «πραγματικό» κόσμο και να τον μοντελοποιήσουν με ακρίβεια, διαπιστώνει μια νέα μελέτη που αναδημοσιεύεται στο LiveScience.
Στην μελέτη, που δημοσιεύθηκε πρωτίστως στη βάση δεδομένων arXiv του πανεπιστημίου Κορνέλ, επιστήμονες από το MIT, το Harvard αλλά και το Κορνέλ, διαπίστωσαν ότι LLMs όπως το GPT-4 ή το Claude 3 Opus της Anthropic, αποτυγχάνουν να παράγουν υποκείμενα μοντέλα που αντιπροσωπεύουν με ακρίβεια την σύγχρονη πραγματικότητα, ενώ διαπιστώνουν επίσης πως ακόμα και μικρές αλλαγές ή αποκλίσεις προκαλούν κατάρρευση των παγκόσμιων μοντέλων τους. Το arXiv είναι μια δωρεάν υπηρεσία διανομής – αρχείο ανοικτής πρόσβασης για σχεδόν 2,4 εκατομμύρια επιστημονικά άρθρα στους τομείς της φυσικής, των μαθηματικών, της επιστήμης των υπολογιστών, της ποσοτικής βιολογίας, της ποσοτικής χρηματοοικονομικής, της στατιστικής, της ηλεκτρολογίας και της επιστήμης των συστημάτων και των οικονομικών.
Όταν, για παράδειγμα, τους ανατέθηκε να φτιάξουν ένα χρηστικό πλάνο οδήγησης “turn-by-turn” [σ.σ. φωνητικής καθοδήγησης, όπως π.χ. στα ταξί] στη Νέα Υόρκη, τα LLM το παρέδωσαν με ακρίβεια σχεδόν 100%. Αλλά οι υποκείμενοι χάρτες που χρησιμοποιήθηκαν ήταν γεμάτοι από ανύπαρκτους δρόμους και διαδρομές, διαπίστωσαν οι επιστήμονες όταν τους επαλήθευσαν ενδελεχώς.
Οι ερευνητές διαπίστωσαν ότι όταν προστέθηκαν απροσδόκητες αλλαγές σε μια οδηγία (όπως παρακάμψεις και κλειστοί δρόμοι), η ακρίβεια των οδηγιών που έδιναν τα LLMs έπεφτε κατακόρυφα. Σε ορισμένες περιπτώσεις, αυτό είχε ως αποτέλεσμα την πλήρη αποτυχία. Ως εκ τούτου, εγείρει ανησυχίες ότι τα συστήματα τεχνητής νοημοσύνης που αναπτύσσονται σε πραγματικές συνθήκες, π.χ. σε ένα αυτοκίνητο χωρίς οδηγό, θα μπορούσαν να δυσλειτουργούν όταν παρουσιάζονται δυναμικά περιβάλλοντα ή παρεμφερείς εργασίες στο περιβάλλον πλοήγησης.
«Μια ελπίδα είναι ότι, επειδή τα LLMs μπορούν να επιτύχουν όλα αυτά τα καταπληκτικά πράγματα στη γλώσσα, ίσως θα μπορούσαμε να χρησιμοποιήσουμε τα ίδια εργαλεία και σε άλλους τομείς της επιστήμης. Αλλά το ερώτημα αν τα LLMs μαθαίνουν συνεκτικά μοντέλα του κόσμου είναι πολύ σημαντικό αν θέλουμε να χρησιμοποιήσουμε αυτές τις τεχνικές για να κάνουμε νέες ανακαλύψεις», δήλωσε σε δήλωσή του ο επικεφαλής συγγραφέας Ασές Ραμπασάν, επίκουρος καθηγητής οικονομικών και κύριος ερευνητής στο Εργαστήριο Πληροφοριακών Συστημάτων και Συστημάτων Αποφάσεων του MIT (LIDS).
Τι ακριβώς κάνει το Generative AI
Η ουσία των μοντέλων Δημιουργικής Τεχνητής Νοημοσύνης [σ.σ. δλδ η Generative AI που χρησιμοποιούμε π.χ. στο νέο Photoshop, και μπορεί κάλλιστα να ειπωθεί και ως Γενεσιουργός Τεχνητή Νοημοσύνη – αν το προτιμάτε], βασίζεται στην ικανότητα των LLMs να «μαθαίνουν» ταυτόχρονα από τεράστιους όγκους δεδομένων και παραμέτρων.
Για να το πετύχουν αυτό βασίζονται σε μοντέλα «μετασχηματιστών», τα οποία είναι το υποκείμενο σύνολο νευρωνικών δικτύων που επεξεργάζονται δεδομένα και επιτρέπουν την αυτοδιδακτική πτυχή των LLMs. Αυτή η διαδικασία δημιουργεί ένα λεγόμενο «μοντέλο κόσμου», το οποίο ένα εκπαιδευμένο LLM μπορεί στη συνέχεια να χρησιμοποιήσει για να βγάλει συμπέρασμα σχετικά με ο,τιδήποτε, ερωτήματα, εργασίες κ.τ.λ.
Μια τέτοια, θεωρητική, χρήση των παγκόσμιων μοντέλων θα ήταν η λήψη δεδομένων από τις διαδρομές ταξί σε μια πόλη για τη δημιουργία ενός χάρτη χωρίς να χρειάζεται να σχεδιάζεται με κόπο κάθε διαδρομή, όπως απαιτείται από τα σημερινά εργαλεία πλοήγησης. Αλλά αν αυτός ο χάρτης δεν είναι ακριβής, οι αποκλίσεις που γίνονται σε μια διαδρομή θα προκαλούσαν υποαπόδοση ή αποτυχία της πλοήγησης με βάση την τεχνητή νοημοσύνη.
Για να αξιολογήσουν την ακρίβεια και τη συνοχή των LLMs του μετασχηματιστή όταν πρόκειται για την κατανόηση των κανόνων και των περιβαλλόντων-συστημάτων του πραγματικού κόσμου, οι ερευνητές τα δοκίμασαν χρησιμοποιώντας μια κατηγορία προβλημάτων που ονομάζονται “ντετερμινιστικά πεπερασμένα αυτόματα’ (Deterministic Finite Automatons-DFAs).
Πρόκειται για προβλήματα με μια ακολουθία καταστάσεων, όπως οι κανόνες ενός παιχνιδιού ή οι διασταυρώσεις σε μια διαδρομή καθ’ οδόν προς έναν προορισμό. Στην προκειμένη περίπτωση, οι ερευνητές χρησιμοποίησαν DFAs που αντλήθηκαν από το επιτραπέζιο παιχνίδι Othello και την πλοήγηση στους δρόμους της Νέας Υόρκης.
Για να ελέγξουν τους μετασχηματιστές με DFAs, οι ερευνητές εξέτασαν δύο μετρικές. Η πρώτη ήταν ο «προσδιορισμός ακολουθίας», ο οποίος αξιολογεί αν ένας μετασχηματιστής LLM έχει σχηματίσει ένα συνεκτικό μοντέλο κόσμου, αν είδε δύο διαφορετικές καταστάσεις του ίδιου πράγματος: δύο πίνακες του Othello ή έναν χάρτη μιας πόλης με κλείσιμο δρόμων και έναν άλλο χωρίς. Η δεύτερη μετρική ήταν η «συμπίεση ακολουθίας» – μια ακολουθία (στην προκειμένη περίπτωση ένας διατεταγμένος κατάλογος σημείων δεδομένων που χρησιμοποιούνται για τη δημιουργία εξερχόμενων data) η οποία θα πρέπει να δείχνει ότι ένα LLM με ένα συνεκτικό μοντέλο κόσμου μπορεί να καταλάβει ότι δύο πανομοιότυπες καταστάσεις, (π.χ. δύο πίνακες Othello που είναι ακριβώς ίδιοι) έχουν την ίδια ακολουθία πιθανών βημάτων που πρέπει να ακολουθηθούν.
Το να βασίζεσαι σε LLMs είναι «επικίνδυνη υπόθεση»
Δύο κοινές κατηγορίες LLM δοκιμάστηκαν σε αυτές τις μετρικές συγκρίσεις. Η μία εκπαιδεύτηκε σε δεδομένα που δημιουργήθηκαν από τυχαία παραγόμενες ακολουθίες, ενώ η άλλη σε δεδομένα που δημιουργήθηκαν ακολουθώντας στρατηγικές διαδικασίες.
Οι μετασχηματιστές που εκπαιδεύτηκαν σε τυχαία δεδομένα σχημάτισαν ένα πιο ακριβές παγκόσμιο μοντέλο, διαπίστωσαν οι επιστήμονες, Αυτό πιθανώς οφειλόταν στο γεγονός ότι το LLM έβλεπε μια ευρύτερη ποικιλία πιθανών βημάτων.
Ο επικεφαλής συγγραφέας της μελέτης Κέγιον Βάφα, ερευνητής στο Χάρβαρντ, εξήγησε σε δήλωσή του: «Στο Othello, αν δείτε δύο τυχαίους υπολογιστές να παίζουν αντί για παίκτες του πρωταθλήματος, θεωρητικά θα βλέπατε το πλήρες σύνολο των πιθανών κινήσεων, ακόμη και τις κακές κινήσεις που δεν θα έκαναν οι παίκτες του πρωταθλήματος». Βλέποντας περισσότερες από τις πιθανές κινήσεις, ακόμη και αν είναι κακές, οι LLM ήταν θεωρητικά καλύτερα προετοιμασμένοι να προσαρμοστούν στις τυχαίες αλλαγές.
Ωστόσο, παρά το γεγονός ότι παρήγαγαν έγκυρες κινήσεις του Othello και ακριβείς κατευθύνσεις, μόνο ένας μετασχηματιστής παρήγαγε ένα συνεκτικό μοντέλο κόσμου για τον Othello και κανένας από τους δύο τύπους δεν παρήγαγε έναν ακριβή χάρτη της Νέας Υόρκης. Όταν οι ερευνητές εισήγαγαν πράγματα όπως οι παρακάμψεις, όλα τα μοντέλα πλοήγησης που χρησιμοποιήθηκαν από τους LLM απέτυχαν.
«Έμεινα έκπληκτος από το πόσο γρήγορα επιδεινώθηκε η απόδοση μόλις προσθέσαμε μια παράκαμψη. Αν κλείσουμε μόλις το 1% των πιθανών δρόμων, η ακρίβεια πέφτει αμέσως από σχεδόν 100% σε μόλις 67%», υπογράμμισε ο Βάφα.
Αυτό δείχνει ότι απαιτούνται διαφορετικές προσεγγίσεις στη χρήση των LLM για την παραγωγή ακριβών μοντέλων του κόσμου, δήλωσαν οι ερευνητές. Το ποιες θα μπορούσαν να είναι αυτές οι προσεγγίσεις δεν είναι σαφές, αλλά αναδεικνύει την ευπάθεια των LLM μετασχηματιστών όταν έρχονται αντιμέτωποι με δυναμικά περιβάλλοντα.
«Συχνά, βλέπουμε αυτά τα μοντέλα να κάνουν εντυπωσιακά πράγματα και πιστεύουμε ότι πρέπει να έχουν καταλάβει κάτι για τον κόσμο», κατέληξε ο Ραμπασάν. «Ελπίζω ότι μπορούμε να πείσουμε τους ανθρώπους ότι αυτό είναι ένα ερώτημα που πρέπει να σκεφτούμε πολύ προσεκτικά, και ότι δεν χρειάζεται να βασιστούμε στις δικές μας διαισθήσεις για να το απαντήσουμε.»