Η OpenAI επιστρέφει στην ανοιχτή τεχνητή νοημοσύνη με δύο νέα μοντέλα

Σε μια κίνηση που φανερώνει στροφή προς μεγαλύτερη διαφάνεια και ανοιχτή πρόσβαση, η OpenAI ανακοίνωσε την κυκλοφορία δύο νέων γλωσσικών μοντέλων τεχνητής νοημοσύνης με «ανοιχτά βάρη». Πρόκειται για τα gpt-oss-120b και gpt-oss-20b, τα οποία είναι ήδη διαθέσιμα για λήψη μέσω της δημοφιλούς πλατφόρμας Hugging Face και απευθύνονται σε προγραμματιστές και ερευνητές που επιθυμούν να δοκιμάσουν ή να αξιοποιήσουν προηγμένα AI μοντέλα χωρίς περιορισμούς χρήσης.

Η ανακοίνωση σηματοδοτεί την πρώτη φορά μετά από πάνω από πέντε χρόνια που η OpenAI κυκλοφορεί πλήρως «ανοιχτό» μοντέλο, κάτι που είχε να συμβεί από την εποχή του GPT-2. Σε αντίθεση με την κλειστή αρχιτεκτονική των προηγμένων μοντέλων της σειράς o (όπως τα o3 και o4-mini), τα νέα gpt-oss έρχονται με πλήρη πρόσβαση στον πηγαίο τους κώδικα και άδεια χρήσης τύπου Apache 2.0, γεγονός που επιτρέπει την εμπορική τους αξιοποίηση χωρίς την ανάγκη αδειοδότησης από την εταιρεία.

Το gpt-oss-120b αποτελεί την πιο ισχυρή εκδοχή, με 117 δισεκατομμύρια παραμέτρους, και είναι σχεδιασμένο ώστε να λειτουργεί σε μία μόνο κάρτα γραφικών Nvidia υψηλής απόδοσης. Από την άλλη, το gpt-oss-20b απευθύνεται σε χρήστες με μικρότερες δυνατότητες, καθώς μπορεί να τρέξει ακόμα και σε φορητό υπολογιστή με 16 GB RAM.

Η νέα αυτή στρατηγική της OpenAI έρχεται σε μια περίοδο έντονου ανταγωνισμού από κινεζικά εργαστήρια τεχνητής νοημοσύνης όπως τα DeepSeek, Qwen της Alibaba και Moonshot AI, τα οποία τα τελευταία χρόνια έχουν πρωτοστατήσει στην ανάπτυξη ισχυρών ανοιχτών μοντέλων. Ο Sam Altman, διευθύνων σύμβουλος της OpenAI, αναγνώρισε ότι η εταιρεία του στάθηκε «στη λάθος πλευρά της ιστορίας» όσον αφορά την ανοιχτή πρόσβαση στην AI, και σημείωσε ότι η νέα αυτή κατεύθυνση στοχεύει στην ενίσχυση ενός δημοκρατικού οικοσυστήματος AI με έδρα τις ΗΠΑ.

Στο πλαίσιο αυτής της πρωτοβουλίας, τα gpt-oss μοντέλα σχεδιάστηκαν ώστε να είναι συμβατά με εργαλεία και υπηρεσίες της ίδιας της OpenAI. Για παράδειγμα, αν το ανοιχτό μοντέλο δεν μπορεί να εκτελέσει μια ενέργεια –όπως επεξεργασία εικόνας– μπορεί να ανακατευθύνει το ερώτημα σε κάποιο από τα κλειστά, πιο προηγμένα μοντέλα της εταιρείας, επεκτείνοντας έτσι τις δυνατότητες των προγραμματιστών.

Η OpenAI επένδυσε στην αποτελεσματικότητα των gpt-oss μοντέλων, τα οποία αξιοποιούν τεχνικές τύπου mixture-of-experts, επιλέγοντας δυναμικά λιγότερους παραμέτρους ανά ερώτημα ώστε να βελτιώνεται η ταχύτητα και η απόδοση. Ειδικά για το gpt-oss-120b, ενεργοποιούνται περίπου 5,1 δισ. παράμετροι ανά token, γεγονός που βελτιώνει τον χρόνο απόκρισης και μειώνει τις απαιτήσεις σε υπολογιστική ισχύ.

Ωστόσο, τα νέα μοντέλα έχουν και περιορισμούς. Δεν υποστηρίζουν multimodal λειτουργίες, δηλαδή δεν μπορούν να επεξεργαστούν εικόνες ή ήχο, σε αντίθεση με άλλα πιο εξελιγμένα μοντέλα της OpenAI. Επιπλέον, παρουσιάζουν αυξημένη τάση για “παραισθήσεις”, απαντήσεις που δεν βασίζονται σε πραγματικά δεδομένα. Σε δοκιμές όπως το PersonQA, τα μοντέλα εμφάνισαν ποσοστά παραισθήσεων της τάξης του 49% και 53%, αντίστοιχα, πολύ υψηλότερα σε σύγκριση με τα πιο πρόσφατα κλειστά μοντέλα της εταιρείας.

Στις επιδόσεις, τα gpt-oss μοντέλα κινήθηκαν άνω του μέσου όρου για ανοιχτά μοντέλα. Στο τεστ Codeforces, το 120b συγκέντρωσε 2622 μονάδες και το 20b 2516, ξεπερνώντας το DeepSeek R1 αλλά υπολείποντας των μοντέλων o3 και o4-mini της ίδιας της OpenAI. Στο Humanity’s Last Exam, ένα απαιτητικό τεστ πλήθους ερωτήσεων γενικών γνώσεων, τα μοντέλα σημείωσαν αντίστοιχα 19% και 17,3%.

Η OpenAI ξεκαθάρισε ότι τα δεδομένα εκπαίδευσης για τα gpt-oss δεν θα δημοσιοποιηθούν, προφανώς για λόγους νομικής προφύλαξης, καθώς η εταιρεία αντιμετωπίζει ήδη αγωγές για φερόμενη χρήση υλικού με πνευματικά δικαιώματα κατά την εκπαίδευση μοντέλων.

Η καθυστέρηση στην κυκλοφορία των μοντέλων οφείλεται εν μέρει και σε θέματα ασφάλειας. Η OpenAI εξέτασε αν τα gpt-oss μπορούν να τροποποιηθούν από κακόβουλους χρήστες ώστε να βοηθούν στην ανάπτυξη κυβερνοεπιθέσεων ή βιολογικών όπλων. Αν και εντοπίστηκε μια μικρή πιθανότητα ενίσχυσης βιολογικών δυνατοτήτων, δεν διαπιστώθηκε επαρκές επίπεδο επικινδυνότητας που να δικαιολογεί περαιτέρω περιορισμούς.

[via]

Source link

Related posts

Η ByteDance παρουσίασε το εξελιγμένο πρόγραμμα δημιουργίας κειμένων Doubao 2.0

Η Κίνα κατασκεύασε το «αόρατο» βλήμα των 80mm

Ποιες θέσεις εργασίας θα εξαφανιστούν τα επόμενα 5 χρόνια λόγω της Τεχνητής Νοημοσύνης;