Μια νέα εποχή για τα μοντέλα τεχνητής νοημοσύνης που τρέχουν απευθείας σε φορητές συσκευές εγκαινιάζει η Google με την κυκλοφορία του Gemma 3n. Η επίσημη ανακοίνωση ήρθε λίγες εβδομάδες μετά την πρώτη παρουσίαση της τεχνολογίας στο Google I/O, με την εταιρεία να προσφέρει πλέον το πλήρες μοντέλο διαθέσιμο για άμεση χρήση από προγραμματιστές και ερευνητές.
Το Gemma 3n αποτελεί τη νεότερη προσθήκη στην οικογένεια των ανοικτών μοντέλων τεχνητής νοημοσύνης της Google, τα οποία έχουν ως στόχο τη μέγιστη ευελιξία για όσους θέλουν να τα τροποποιήσουν και να τα προσαρμόσουν στις δικές τους ανάγκες. Σε αντίθεση με το Gemini, το κλειστό, ιδιόκτητο μοντέλο της εταιρείας, το Gemma είναι εξ ολοκλήρου ανοιχτού κώδικα και απευθύνεται κυρίως σε developers.
Το νέο μοντέλο ξεχωρίζει γιατί δεν περιορίζεται πλέον μόνο στην επεξεργασία κειμένου. Το Gemma 3n μπορεί να δεχτεί και να επεξεργαστεί εικόνες, ήχο, βίντεο και να παράγει απαντήσεις σε μορφή κειμένου, φέρνοντας στο προσκήνιο πραγματικές δυνατότητες πολυτροπικής τεχνητής νοημοσύνης ακόμη και σε συσκευές χαμηλής ισχύος. Σύμφωνα με την Google, το μοντέλο μπορεί να λειτουργήσει ακόμα και σε συσκευές με μόλις 2 GB μνήμης RAM, προσφέροντας βελτιωμένη απόδοση σε εργασίες όπως ο προγραμματισμός, η επίλυση προβλημάτων και η λογική σκέψη.
Το Gemma 3n κυκλοφορεί σε δύο παραλλαγές, με βάση την πολυπλοκότητά του: E2B και E4B. Παρότι οι απόλυτοι αριθμοί των παραμέτρων τους φτάνουν τα 5 και 8 δισεκατομμύρια αντίστοιχα, η Google έχει εφαρμόσει νέες αρχιτεκτονικές τεχνικές ώστε να λειτουργούν με μνήμη αντίστοιχη μοντέλων 2B και 4B, εξασφαλίζοντας απόδοση με περιορισμένους πόρους.
Στην καρδιά αυτής της αποδοτικότητας βρίσκεται μια νέα αρχιτεκτονική την οποία η Google ονομάζει MatFormer. Όπως εξηγεί η ίδια η εταιρεία, λειτουργεί με λογική «Ματριόσκα» – των γνωστών ρωσικών κουκλών – όπου ένα μεγαλύτερο μοντέλο περιλαμβάνει στο εσωτερικό του μια μικρότερη πλήρως λειτουργική εκδοχή. Αυτό επιτρέπει στο ίδιο μοντέλο να εκτελεί διαφορετικές εργασίες με ευελιξία και χωρίς την ανάγκη για πολλαπλές εκδόσεις.
Τα αποτελέσματα από δοκιμές επιδόσεων δείχνουν εντυπωσιακά στοιχεία. Το μεγαλύτερο μοντέλο E4B κατάφερε να περάσει για πρώτη φορά το φράγμα των 1300 μονάδων στο LMArena benchmark, επίδοση που μέχρι σήμερα δεν είχε επιτευχθεί από κανένα μοντέλο κάτω από 10 δισεκατομμύρια παραμέτρους.
Σημαντική είναι και η πρόοδος στον τομέα της φωνής και της εικόνας. Το νέο μοντέλο υποστηρίζει αναγνώριση ομιλίας και μετάφραση απευθείας στη συσκευή, χάρη σε έναν εξελιγμένο κωδικοποιητή ήχου. Στην πλευρά της όρασης, χρησιμοποιείται το MobileNet-V5, μια νέα γενιά encoder που προσφέρει αυξημένη ταχύτητα και αποδοτικότητα σε σχέση με τους προκατόχους του. Ενδεικτικά, σε συσκευή Pixel της Google, μπορεί να επεξεργάζεται βίντεο με ρυθμό έως και 60 καρέ ανά δευτερόλεπτο.
Εκτός από τις τεχνικές βελτιώσεις, το Gemma 3n ενσωματώνει υποστήριξη για 140 γλώσσες όσον αφορά την κατανόηση και παραγωγή κειμένου, ενώ είναι σε θέση να αναγνωρίσει πολυτροπικά δεδομένα σε 35 γλώσσες. Παράλληλα, εμφανίζει ενισχυμένες επιδόσεις σε τομείς όπως τα μαθηματικά, ο προγραμματισμός και η πολύγλωσση κατανόηση.
[via]