Η νέα AI της Κίνας «ντροπιάζει» όλα τα υπόλοιπα μοντέλα

Η Κίνα ανατρέπει τις ισορροπίες στον χώρο της τεχνητής νοημοσύνης με την παρουσίαση του Kimi K2, ενός νέου μεγάλου γλωσσικού μοντέλου (LLM) από τη start-up Moonshot AI, που εδρεύει στο Πεκίνο και υποστηρίζεται από κολοσσούς όπως η Alibaba. Η ανακοίνωση έχει προκαλέσει έντονο ενδιαφέρον στον διεθνή τεχνολογικό κόσμο, καθώς το νέο μοντέλο είναι open source και διαθέτει εντυπωσιακό μέγεθος – περίπου 1 τρισεκατομμύριο παραμέτρους – κατατάσσοντάς το μεταξύ των μεγαλύτερων ανοιχτών μοντέλων παγκοσμίως.

Αυτό που καθιστά ξεχωριστό το Kimi K2 δεν είναι μόνο ο όγκος του, αλλά κυρίως η αρχιτεκτονική που χρησιμοποιεί: πρόκειται για ένα μοντέλο mixture-of-experts (MoE). Αντί για ένα ενιαίο νευρωνικό δίκτυο, το μοντέλο αποτελείται από μια σειρά εξειδικευμένων «υπομονάδων», καθεμία από τις οποίες είναι εκπαιδευμένη σε συγκεκριμένους τύπους δεδομένων ή εργασιών. Ένας «μηχανισμός επιλογής» (gating mechanism) αποφασίζει σε πραγματικό χρόνο ποιες από αυτές τις υπομονάδες θα ενεργοποιηθούν κάθε φορά, χρησιμοποιώντας μόνο 32 δισεκατομμύρια παραμέτρους ανά πρόβλεψη. Αυτή η τεχνική επιτρέπει σημαντική εξοικονόμηση σε υπολογιστική ισχύ, τόσο κατά την εκπαίδευση όσο και κατά την εκτέλεση.

Η αποδοτικότητα αυτή δεν είναι απλώς τεχνικό κατόρθωμα, αλλά έχει και σημαντικό οικονομικό αντίκτυπο. Η τιμολογιακή πολιτική του Kimi K2 είναι εξαιρετικά ανταγωνιστική: 0,14 ευρώ ανά εκατομμύριο tokens εισόδου και 2,30 ευρώ ανά εκατομμύριο tokens εξόδου. Σε σύγκριση, το GPT-4.1 της OpenAI κοστίζει 1,80 ευρώ και 7,30 ευρώ αντίστοιχα, ενώ το Claude Opus 4 της Anthropic είναι ακόμα ακριβότερο, με τιμές που αγγίζουν τα 13,70 και 68,50 ευρώ αντίστοιχα. Για εταιρείες και οργανισμούς που επεξεργάζονται εκατομμύρια tokens ημερησίως, η διαφορά κόστους μεταφράζεται σε τεράστια εξοικονόμηση.

Οι πρώτες επιδόσεις του μοντέλου σε γνωστά benchmarks είναι εντυπωσιακές και συχνά ξεπερνούν τους κορυφαίους ανταγωνιστές του. Στο SWE-Bench Verified, που αποτελεί ένα υποσύνολο δοκιμασιών επιδιόρθωσης κώδικα βασισμένων σε πραγματικά προβλήματα του GitHub, το Kimi K2 πέτυχε 65,8%, έναντι 54,6% του GPT-4.1. Στο LiveCodeBench, μια δοκιμή που αξιολογεί την ικανότητα end-to-end προγραμματισμού, το Kimi K2 έφτασε το 53,7%, υπερβαίνοντας επίσης το 44,7% του GPT-4.1. Στον τομέα της μαθηματικής σκέψης, και συγκεκριμένα στο MATH-500, το μοντέλο σημείωσε 97,4%, υπερβαίνοντας το ήδη υψηλό 92,4% του GPT-4.1.

Η Moonshot AI ιδρύθηκε το 2023 από τον Yang Zhilin, απόφοιτο του Πανεπιστημίου Tsinghua, και γρήγορα κέρδισε προσοχή χάρη σε έναν προηγμένο chatbot που μπορούσε να διαχειρίζεται εξαιρετικά μεγάλα κείμενα. Το Kimi K2 εξελίσσει αυτή την τεχνολογία προσφέροντας υποστήριξη για context window έως και 128.000 tokens, καθώς και ενισχυμένες δυνατότητες στον τομέα του προγραμματισμού. Η πρόσβαση στο μοντέλο γίνεται μέσω web, mobile εφαρμογών και API.

Ωστόσο, η ίδια η Moonshot παραδέχεται ότι το Kimi K2 εξακολουθεί να έχει αδυναμίες. Σε εσωτερικούς ελέγχους, εντοπίστηκαν ζητήματα σε εργασίες που απαιτούν σύνθετο λογικό συλλογισμό ή ασαφείς περιγραφές εργαλείων, οδηγώντας σε υπερπαραγωγή tokens ή ατελείς απαντήσεις. Επιπλέον, η απόδοση μειώνεται όταν ενεργοποιείται η χρήση εργαλείων (tools), ενώ σε ολοκληρωμένα projects λογισμικού η μέθοδος one-shot prompting δεν αποδίδει εξίσου καλά με τη χρήση του μοντέλου ως μέρος ενός agent framework. Η εταιρεία εργάζεται ήδη για τη διόρθωση αυτών των αδυναμιών και προσκαλεί την κοινότητα να συμβάλει με επιπλέον σχόλια και ανατροφοδότηση.

[via]

Source link

Related posts

Ερευνητές εξάγουν ενέργεια από «μαύρη τρύπα» σε συνθήκες εργαστηρίου!

Η Meta αποσύρει το Muse Image από το Instagram μετά τις αντιδράσεις για τα AI Deepfakes

Η Apple μηνύει την OpenAI για κλοπή εμπορικών μυστικών