Μια πολύκροτη δικαστική υπόθεση έφερε στο φως έναν μεγάλο όγκο εσωτερικής επικοινωνίας από τη Meta, με ένα συγκεκριμένο έγγραφο να τραβά την προσοχή ερευνητών τεχνητής νοημοσύνης.
Το συγκεκριμένο εύρημα προσφέρει νέες γνώσεις σχετικά με το πώς χτίζονται τα μοντέλα ΑΙ και ενδέχεται να επηρεάσει το ποιος θα μοιραστεί τα οφέλη αυτής της νέας τεχνολογίας. Μέσα στα δικαστικά έγγραφα περιγράφεται πώς οι ερευνητές της Meta χρησιμοποίησαν μια διαδικασία που ονομάζεται ablation για να εντοπίσουν ποια δεδομένα συνέβαλαν στη βελτίωση των μοντέλων τεχνητής νοημοσύνης Llama της εταιρείας.
Η ablation είναι μια ιατρική τεχνική που καταστρέφει σκόπιμα ιστό με σκοπό τη βελτίωση λειτουργιών, όπως η εγκεφαλική δραστηριότητα. Στον τομέα της AI, η μέθοδος αυτή περιλαμβάνει την αφαίρεση μερών ενός συστήματος για να μελετηθεί πόσο συμβάλλουν αυτά στην τελική απόδοση.
Σύμφωνα με το BusinessInsider, στα πειράματα ablation της Meta, η εταιρεία αντικατέστησε ένα τμήμα των δεδομένων εκπαίδευσης των μοντέλων της με «πειρατικά» βιβλία από μια τεράστια βάση δεδομένων γνωστή ως LibGen. Στη συνέχεια, η Meta επανεκπαίδευσε το μοντέλο Llama για να δει την επίδραση.
Στο ένα πείραμα, η Meta πρόσθεσε βιβλία επιστήμης και τεχνολογίας, μαζί με έργα μυθοπλασίας, στα δεδομένα εκπαίδευσης. Σε ένα δεύτερο, πρόσθεσε μόνο μυθοπλασία. Και στα δύο πειράματα, η απόδοση του Llama βελτιώθηκε αισθητά στις αξιολογήσεις του κλάδου, σύμφωνα με το εσωτερικό έγγραφο της Meta που κατατέθηκε στο δικαστήριο.
Αυτό, όπως σημείωσε ο Νικ Βίνσετ, αναπληρωτής καθηγητής στην σχολή πληροφορικής του πανεπιστημίου Simon Fraser, δείχνει ότι η Meta διαθέτει την ικανότητα να αποδίδει αξία σε συγκεκριμένα δεδομένα εκπαίδευσης.
Κοινή πρακτική, αλλά υπό μυστικότητα
Η τεχνική ablation έχει εξελιχθεί σε κοινή πρακτική όχι μόνο εντός της Meta, αλλά και σε ολόκληρη τη βιομηχανία τεχνητής νοημοσύνης. Ένας μηχανικός της Meta ανέφερε στο LinkedIn ότι έχει πραγματοποιήσει πάνω από 100 ablation πειράματα κατά την ανάπτυξη του Llama 4 και προηγούμενων εκδόσεων των μεγάλων μοντέλων της εταιρείας.
Ωστόσο, η Meta δεν δημοσιεύει τα αποτελέσματα αυτών των πειραμάτων – και ούτε οι περισσότερες άλλες εταιρείες στον χώρο της AI. «Αυτό γίνεται για έναν πολύ συγκεκριμένο λόγο», εξηγεί ο Βίνσετ. «Αν οι τεχνολογικοί κολοσσοί αποκαλύψουν ποια δεδομένα συνέβαλαν στη βελτίωση των μοντέλων τους, τότε οι δημιουργοί αυτών των δεδομένων θα ζητήσουν αποζημίωση – και θα έχουν μια ξεκάθαρη εκτίμηση του τι δικαιούνται».
«Αν αυτά τα νούμερα γίνουν δημόσια, θα μπορούσαν να προσφέρουν στις οργανώσεις περιεχομένου πιο σταθερό νομικό έρεισμα», είπε ο Βίνσετ. Η δημοσιοποίηση των αποτελεσμάτων αυτών των πειραμάτων ενδέχεται επίσης να έχει επιπτώσεις στις υψηλού προφίλ αγωγές για πνευματικά δικαιώματα που βρίσκονται σε εξέλιξη σε όλο το τεχνολογικό τοπίο – με την υπόθεση Kadrey κατά Meta να αποτελεί χαρακτηριστικό παράδειγμα.
Σε τέτοιες υποθέσεις, οι τεχνολογικοί κολοσσοί και οι AI startups υποστηρίζουν ότι δεν παραβιάζονται πνευματικά δικαιώματα όταν τα μηχανήματα «μαθαίνουν» από δημοσιευμένο υλικό στο διαδίκτυο. Ωστόσο, τα εσωτερικά έγγραφα που αποδίδουν αξία σε συγκεκριμένο περιεχόμενο μπορεί να βλάψουν αυτούς τους ισχυρισμούς.
«Είναι πιθανό ότι η δημοσίευση τέτοιων εκτιμήσεων αξίας θα υπονόμευε τη νομική θέση που σκοπεύουν να υιοθετήσουν οι Big Tech εταιρείες σε αυτές τις δίκες», σχολίασε ο Βίνσετ. Από την πλευρά της, εκπρόσωπος της Meta δήλωσε ότι η εταιρεία διαφωνεί με τα επιχειρήματα των εναγόντων στη συγκεκριμένη υπόθεση και πρόσθεσε πως τα μοντέλα Llama «βοηθούν ιδιώτες και επιχειρήσεις να γίνουν πιο καινοτόμοι, παραγωγικοί και δημιουργικοί».
«Θα συνεχίσουμε να υπερασπιζόμαστε σθεναρά τον εαυτό μας και να προστατεύουμε την ανάπτυξη της γενετικής τεχνητής νοημοσύνης προς όφελος όλων», ανέφερε ο εκπρόσωπος.
Η διατήρηση των πειραμάτων ablation υπό καθεστώς μυστικότητας ευθυγραμμίζεται με μια ευρύτερη τάση στον χώρο της τεχνητής νοημοσύνης: την απόκρυψη του τρόπου με τον οποίο τα δεδομένα συμβάλλουν στη δημιουργία και την απόδοση των AI μοντέλων.
Το 2017, η εμβληματική μελέτη της Google που εγκαινίασε την εποχή της γενετικής τεχνητής νοημοσύνης είχε αποκαλύψει αναλυτικά στοιχεία για τα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν. Περιλάμβανε, για παράδειγμα, περίπου 40.000 προτάσεις από τη The Wall Street Journal. Λίγα χρόνια αργότερα, η OpenAI, στο έγγραφό της για το GPT-2, περιέγραφε πώς συγκέντρωσε ιστοσελίδες μέσω εκατομμυρίων εξωτερικών συνδέσμων από το Reddit.
Προχωρώντας στο σήμερα, η διαφάνεια έχει εξαφανιστεί. Όταν η Meta κυκλοφόρησε το Llama 4 στις αρχές Απριλίου, δημοσίευσε ένα model card για να εξηγήσει πώς δημιουργήθηκε το προϊόν. Δεν αναφέρθηκε πουθενά στα πειράματα ablation και περιέγραψε τα δεδομένα εκπαίδευσης μόνο γενικά ως «ένα μείγμα από δημόσια διαθέσιμα δεδομένα, αδειοδοτημένο περιεχόμενο και πληροφορίες από τα προϊόντα και τις υπηρεσίες της Meta».
Ο πιθανότερος λόγος γι’ αυτή τη στροφή στη μυστικότητα είναι προφανής: η αποκάλυψη των πηγών δεδομένων θα μπορούσε να οδηγήσει σε οικονομικές διεκδικήσεις από τους δημιουργούς τους. «Είναι πραγματικά απογοητευτικό που δεν είναι ανοιχτοί γι’ αυτό, και δεν δίνουν την πρέπουσα αναγνώριση στο υλικό», δήλωσε ο Μπιλ Γκρος, CEO της startup ProRata, η οποία επιδιώκει να αποζημιώνει δημιουργούς για τη συμβολή τους στην εκπαίδευση AI.
Σύμφωνα με τον Gross, οι δημιουργοί περιεχομένου θα πρέπει να αμείβονται διπλά: μία φορά για τη χρήση των δεδομένων τους στην εκπαίδευση AI μοντέλων και μία ακόμη όταν τα ίδια αυτά μοντέλα βασίζονται στο περιεχόμενο για να απαντήσουν σε ερωτήσεις χρηστών.
Τα «μυστικά» αποτελέσματα της Meta
Τα πειράματα ablation της Meta εστιάζουν στο πρώτο βήμα της εκπαίδευσης, κατά το οποίο χρησιμοποιούνται τεράστιοι όγκοι δεδομένων για να βοηθήσουν τα μοντέλα να κατανοήσουν τον κόσμο. Για παράδειγμα, για να «μάθει» ένα σύστημα να αναγνωρίζει ένα λάμα, πρέπει να του δείξεις όσο το δυνατόν περισσότερες φωτογραφίες με λάμα και αλπακά, ώστε να μπορέσει να διακρίνει μεταξύ των δύο.
Στο πρώτο πείραμα ablation, η Meta διαπίστωσε ότι η προσθήκη επιστημονικών, τεχνολογικών και λογοτεχνικών βιβλίων στα δεδομένα εκπαίδευσης βελτίωσε την απόδοση του Llama κατά 4,5% σε έναν βιομηχανικό δείκτη γνωστό ως BooIQ. Η προσθήκη μόνο λογοτεχνικών βιβλίων οδήγησε σε ακόμη υψηλότερη βελτίωση – 6%.
Οι συνολικές αποδόσεις από αυτά τα πειράματα έφτασαν το 5,5% σε έναν άλλο δείκτη, γνωστό ως SIQA, όπως καταγράφεται στο εσωτερικό έγγραφο της Meta. Ο Πίτερ Χέντερσον επίκουρος καθηγητής πληροφορικής στο Πανεπιστήμιο Princeton, ανάρτησε γραφήματα της Meta στο Twitter από το δικαστικό έγγραφο, αποτυπώνοντας αυτές τις επιδόσεις. Αν και οι αποδόσεις της τάξεως του 5% φαίνονται μικρές, στον «αγώνα ταχύτητας» της AI κάθε ποσοστιαία μονάδα μετρά.
«Στην πραγματικότητα αυτό είναι τεράστιο, γιατί είναι εξαιρετικά δύσκολο να κερδίσεις κάθε επιπλέον μονάδα σε αυτούς τους δείκτες αξιολόγησης», ανέφερε ο Gross.
Μπορούν τα ξωτικά να κάνουν παιδιά με ανθρώπους;
Η βελτίωση του Llama στον δείκτη BooIQ καταδεικνύει τη σημασία των συγκεκριμένων δεδομένων εκπαίδευσης και πόσο εξαρτώνται από αυτά τα AI μοντέλα και οι εταιρείες τεχνολογίας, σύμφωνα με τον Νικ Βίνσετ. Το BoolQ αποτελείται από 15.942 ερωτήσεις τύπου «ναι/όχι» που τα μοντέλα πρέπει να απαντήσουν. Όσο περισσότερες σωστές απαντήσεις, τόσο υψηλότερη η απόδοση. Ένα ποσοστό βελτίωσης 5% μεταφράζεται σε περίπου 800 επιπλέον σωστές απαντήσεις.
Μία από τις ερωτήσεις στο BooIQ: «Μπορούν τα ξωτικά και οι άνθρωποι να κάνουν παιδιά στο Lord of the Rings;» Μπορείς να απαντήσεις με σιγουριά μόνο αν έχεις διαβάσει τα έργα του J.R.R. Tolkien – ή αν τα βιβλία του περιλαμβάνονται στα δεδομένα εκπαίδευσης, λέει ο Βίνσετ. Η απάντηση, παρεμπιπτόντως, είναι «ναι» – τα ξωτικά και οι άνθρωποι μπορούν να αποκτήσουν απογόνους στον κόσμο του Άρχοντα των Δαχτυλιδιών.
Ο Βίνσετ ελπίζει ότι αποκαλύψεις όπως αυτές για τα μυστικά πειράματα της Meta θα οδηγήσουν στη δημιουργία ενός νέου συστήματος που θα αποδίδει πίστωση στις πηγές των δεδομένων εκπαίδευσης και θα προβλέπει ανάλογη αποζημίωση. «Τα προϊόντα με AI chatbots βασίζονται στο γεγονός ότι κάποιος άνθρωπος, κάπου, έκανε κάτι χρήσιμο, το έγραψε και το δημοσίευσε», σχολιάζει. «Η τεχνολογία αυτή απλώς πακετάρει ξανά αυτό το υλικό σε κάτι – ελπίζουμε – ακόμη πιο χρήσιμο».
«Στην ουσία, πίσω απ’ όλα αυτά βρίσκονται άνθρωποι. Χωρίς τα δεδομένα τους, τα μοντέλα AI δεν θα ήταν τόσο αποδοτικά», καταλήγει. «Οι αποδείξεις από τα πειράματα ablation μπορεί τελικά να βοηθήσουν στο να θεσπιστεί μια υγιής ροή δεδομένων. Είναι σημαντικό να διατηρηθούν οι θεσμοί που ενθαρρύνουν τους ανθρώπους να παράγουν περιεχόμενο, γνώση και να τα μοιράζονται».
Πηγή: newmoney.gr
Διαβάστε επίσης: Οι Big Tech προετοιμάζονται για την επιβράδυνση της διαφήμισης λόγω δασμών