Το νέο AI μοντέλο ανταγωνίζεται το GPT-5 και είναι open source!

Η διεθνής κούρσα AI μόλις πήρε νέα τροπή. Η κινεζική startup DeepSeek, που τους τελευταίους μήνες έχει αποκτήσει διαστάσεις φαινομένου, κυκλοφόρησε δύο νέα μοντέλα – DeepSeek-V3.2 και DeepSeek-V3.2-Speciale – τα οποία, σύμφωνα με τις πρώτες ενδείξεις, φτάνουν ή και ξεπερνούν τις επιδόσεις κορυφαίων μοντέλων όπως GPT-5 και Gemini 3 Pro. Η έκπληξη, ωστόσο, δεν βρίσκεται μόνο στην ισχύ τους, αλλά στο γεγονός ότι διατίθενται ως open source, ένα χτύπημα ευθείας αμφισβήτησης απέναντι στις κλειστές, πανάκριβες πλατφόρμες της Silicon Valley.

Η DeepSeek δεν επέλεξε τη γνωστή διαδρομή των αμερικανικών εταιρειών, όπου τα πιο προηγμένα μοντέλα προστατεύονται πίσω από paywalls, ιδιόκτητες APIs και μακροσκελές red-teaming. Αντίθετα, υιοθετεί την πιο επιθετική μορφή διαφάνειας: τα νέα μοντέλα είναι διαθέσιμα για λήψη, τροποποίηση και εμπορική χρήση μέσω της MIT license. Με άλλα λόγια, οποιοσδήποτε – από ανεξάρτητους developers μέχρι μικρές ομάδες ερευνητών – μπορεί να δουλέψει πάνω τους χωρίς να πληρώνει χιλιάδες δολάρια σε υποδομές ή άδειες χρήσης.

Το V3.2 προορίζεται για γενική χρήση και reasoning σε καθημερινά προβλήματα, ενώ το Speciale είναι η «αγωνιστική» έκδοση. Οι επιδόσεις του στα benchmarks έχουν προκαλέσει έντονη συζήτηση: 99,2% στο Harvard-MIT Math Tournament, 73% επιτυχία σε εντοπισμό και διόρθωση bugs και κορυφαίες βαθμολογίες σε διεθνείς διαγωνισμούς όπως IMO και ICPC – και όλα αυτά χωρίς πρόσβαση στο διαδίκτυο ή σε εξωτερικά εργαλεία. Το αφήγημα είναι ξεκάθαρο: η DeepSeek επιχειρεί να δείξει ότι το μοντέλο της δεν χρειάζεται cloud-boost για να αποδώσει. Αρκεί η ίδια η αρχιτεκτονική του.

Ο κρυμμένος άσος αυτής της αρχιτεκτονικής ονομάζεται DeepSeek Sparse Attention (DSA). Το πρόβλημα με τα μεγάλα transformer μοντέλα είναι ότι καθώς αυξάνει το context length, εκτοξεύεται το κόστος υπολογισμού. Πρέπει να «σκεφτούν» κάθε λέξη σε σχέση με όλες τις υπόλοιπες. Το DSA λειτουργεί σαν μια έξυπνη τεχνική φιλτραρίσματος: το μοντέλο επικεντρώνεται μόνο στα πιο σχετικά τμήματα ενός κειμένου, παρακάμπτοντας μεγάλο μέρος των υπολογισμών. Η DeepSeek υποστηρίζει ότι αυτό μειώνει το κόστος έως και 70% σε μεγάλα documents, σε μια εποχή όπου κάθε επιπλέον token μεταφράζεται σε χρήματα.

Αυτή η μείωση κόστους δεν είναι λεπτομέρεια. Είναι καθοριστικός παράγοντας για το μέλλον του AI. Σήμερα, οι περισσότερες προηγμένες λύσεις είναι οικονομικά απροσπέλαστες για μικρούς παίκτες. Το γεγονός ότι το DeepSeek V3.2 διαθέτει context window 128.000 tokens και μπορεί να τρέξει με περιορισμένους πόρους σημαίνει ότι μια μικρή ομάδα ή ένας φοιτητής μπορεί να υλοποιήσει συστήματα που μέχρι χθες απαιτούσαν εταιρικό budget. Πρακτικά, ανοίγει η πόρτα για μια εντελώς νέα γενιά AI εφαρμογών.

Ακόμη πιο ριζοσπαστικό είναι το πώς το μοντέλο χειρίζεται εργαλεία. Τα περισσότερα AI agents σήμερα δυσκολεύονται όταν πρέπει να χρησιμοποιήσουν πολλαπλά tools στη σειρά, γιατί κάθε ενέργεια επαναφέρει τη λογική τους στο μηδέν. Η DeepSeek ισχυρίζεται ότι έλυσε το πρόβλημα με μια τεχνική διατήρησης μνήμης ανάμεσα στις ενέργειες. Εκπαίδευσε το μοντέλο με περισσότερες από 85.000 σύνθετες συνθετικές οδηγίες ώστε να μπορεί να χειρίζεται browser-based εργαλεία, coding περιβάλλοντα και workflows που μοιάζουν με αυτά που θα συναντήσει στην πραγματική ζωή. Ουσιαστικά, το V3.2 δεν είναι απλώς chatbot· είναι πράκτορας.

Η διαφορά φαίνεται όταν το ζητήσεις να λύσει μια πολυσύνθετη εργασία: όχι να σου συνοψίσει μια συνταγή, αλλά να οργανώσει ταξίδι ημέρας με συγκεκριμένο budget, να ελέγξει ισοτιμίες, να συγκρίνει διαμονές, να αξιολογήσει αλγοριθμικές επιλογές και να δοκιμάσει κώδικα. Με το V3.2, αυτά δεν γίνονται με patchwork εργαλείων, αλλά μέσα σε ένα ενιαίο reasoning pipeline.

Δεν είναι όμως όλα ρόδινα. Η επιλογή της DeepSeek να ανοίξει τόσο ισχυρά μοντέλα υπό MIT license έχει ήδη σημάνει συναγερμό σε ρυθμιστικές αρχές. Η Γερμανία προσπάθησε να μπλοκάρει την υπηρεσία για θέματα διακίνησης δεδομένων, η Ιταλία την απαγόρευσε, ενώ στις ΗΠΑ υπάρχουν πιέσεις να απομακρυνθεί από συσκευές του κρατικού τομέα. Στο υπόβαθρο βρίσκεται η γεωπολιτική ένταση μεταξύ ΗΠΑ και Κίνας – και η ανησυχία ότι η «ανοιχτότητα» αυτή μπορεί τελικά να λειτουργήσει ως μέσο διάχυσης τεχνολογίας που σε άλλες συνθήκες θα ήταν ελεγχόμενη.

Παρ’ όλα αυτά, η συζήτηση επιστρέφει στο βασικό ερώτημα: εάν η DeepSeek προσφέρει μοντέλα frontier-level σε κλάσμα του κόστους, τι ακριβώς προσφέρουν οι αμερικανικές εταιρείες ως αντάλλαγμα για το premium; Η μάχη δεν αφορά πλέον μόνο τα χαρακτηριστικά, αλλά την πρόσβαση, την τιμολόγηση και το ποιος ελέγχει τα θεμέλια της τεχνητής νοημοσύνης.

Για την ώρα, το Speciale είναι διαθέσιμο αποκλειστικά μέσω API, όμως η εταιρεία υπόσχεται ότι μέχρι τα μέσα Δεκεμβρίου θα ενσωματωθεί πλήρως στο V3.2 και θα γίνει διαθέσιμο σε όλους.

Source link

Related posts

Τα τρία ελληνικά προγράμματα που αξιοποιούν την τεχνητή νοημοσύνη και απέσπασαν διεθνή διάκριση

Το νέο μηχανικό «θαύμα» της Κίνας για υπερηχητική ταχύτητα

Πως η AI της Anthropic μπορεί πλέον να χειρίζεται πλήρως αυτόνομα τον υπολογιστή σου