Η Microsoft αποκάλυψε αυτό που η ίδια αποκαλεί το πρώτπ AI superfactory της, ένα δίκτυο εγκαταστάσεων σχεδιασμένων αποκλειστικά για την εκπαίδευση γιγαντιαίων μοντέλων τεχνητής νοημοσύνης. Πρόκειται για μια νέα κατηγορία datacenters, ένα είδος υπερδομής που δεν στοχεύει απλώς στο να προσφέρει περισσότερα GPU clusters, αλλά να τα οργανώσει σε ένα ενιαίο, κατανεμημένο σύστημα που λειτουργεί σαν εικονικός υπερυπολογιστής. Είναι μια κίνηση που δείχνει καθαρά πού κατευθύνεται το επόμενο στάδιο της AI: στη μαζική κλίμακα.
Ο νέος αυτός σχεδιασμός, ο οποίος φέρει την ονομασία Fairwater, βασίζεται στη σύνδεση δύο μεγάλων datacenters —στο Wisconsin και στην Atlanta— με ένα αποκλειστικό δίκτυο οπτικών ινών που μεταφέρει εκπαιδευτικά δεδομένα σε ταχύτητες που απαιτούνται για να παραμείνουν εκατοντάδες χιλιάδες GPU ενεργές χωρίς διακοπές. Η Microsoft περιγράφει το σύστημα αυτό ως θεμέλιο για την επόμενη εποχή της AI, όπου η συνεχής ροή δεδομένων θα είναι το ίδιο κρίσιμη όσο και η ίδια η υπολογιστική ισχύς.
Ο Alistair Speirs, γενικός διευθυντής της Azure Infrastructure, το διατύπωσε χαρακτηριστικά: δεν πρόκειται για άλλο ένα cloud setup με μεμονωμένες εργασίες, αλλά για δίκτυο εγκαταστάσεων που συνεργάζονται σαν ένα ενιαίο, συνεχώς λειτουργικό σύστημα. Η χρήση του όρου superfactory δεν είναι τυχαία. Εδώ δεν μιλάμε για ένα datacenter που εκπαιδεύει ένα μοντέλο, αλλά για πολλαπλές εγκαταστάσεις που μοιράζονται ένα τεράστιο εκπαιδευτικό έργο, με κάθε κομμάτι hardware να δουλεύει συγχρονισμένα.
Για να επιτευχθεί αυτό, η Microsoft αναπτύσσει το AI WAN, ένα νέο σύστημα δικτύωσης που μεταφέρει δεδομένα χιλιάδες μίλια με τρόπο ώστε η καθυστέρηση να είναι σχεδόν αμελητέα. Το δίκτυο αποτελείται από φρέσκα τμήματα οπτικών ινών αλλά και υπάρχουσα υποδομή που η εταιρεία απέκτησε τα προηγούμενα χρόνια μέσω εξαγορών. Η πρόκληση δεν ήταν μόνο η απόσταση, αλλά και η ικανότητα διαμοιρασμού εκπαιδευτικών φορτίων χωρίς κανένα GPU να περιμένει δεδομένα από κάποιο άλλο σημείο του δικτύου. Ο στόχος είναι ξεκάθαρος: μηδενικός χρόνος αδράνειας.
Ο Scott Guthrie, executive vice president για το Cloud + AI, σημειώνει ότι το να προσθέτεις περισσότερα GPUs δεν αρκεί πλέον. Το πραγματικό στοίχημα είναι η δυνατότητα να λειτουργούν όλα μαζί σαν ένα σύστημα με ενιαία λογική. Αυτό αποτελεί τον πυρήνα του Fairwater design: οι δύο όροφοι των εγκαταστάσεων δεν είναι απλώς μια επιλογή χωροταξίας, αλλά μια στρατηγική αύξησης της πυκνότητας των chip clusters ώστε να μειωθεί η εντός του κτιρίου καθυστέρηση και να επιτευχθεί υψηλότερη απόδοση σε μεγάλα AI training workloads.
Το hardware που υποστηρίζει αυτή τη φιλοσοφία περιλαμβάνει racks σχεδιασμένα για μονάδες όπως τα Nvidia GB200 NVL72 — συστήματα ειδικά φτιαγμένα για κλιμάκωση σε τεράστια clusters Blackwell GPUs. Για να διαχειριστεί τον όγκο θερμότητας που παράγει μια τέτοια εγκατάσταση, η Microsoft χρησιμοποιεί προηγμένα υγρά συστήματα ψύξης που απομακρύνουν θερμότητα από τα εσωτερικά κυκλώματα και την εκτονώνουν εκτός του κτιρίου. Σύμφωνα με την εταιρεία, η διαδικασία αυτή απαιτεί σχεδόν μηδενική κατανάλωση νέου νερού, ένα ιδιαίτερα κρίσιμο στοιχείο σε μια εποχή όπου τα datacenters δέχονται αυξανόμενη πίεση για το περιβαλλοντικό τους αποτύπωμα.
Η τοποθεσία της Atlanta αντικατοπτρίζει σχεδόν πλήρως τη δομή του Wisconsin, προετοιμάζοντας το έδαφος για ένα δίκτυο παρόμοιων εγκαταστάσεων σε πολλαπλές γεωγραφικές περιοχές. Αυτό δεν αποτελεί μεμονωμένη στρατηγική ανάπτυξης αλλά απαραίτητη προϋπόθεση για την εκπαίδευση των επόμενων γενεών AI μοντέλων. Με τα training datasets να μεγαλώνουν και τους αριθμούς παραμέτρων να εκτοξεύονται, οι απαιτήσεις σε υποδομή έχουν ξεφύγει από το πλαίσιο του ενός ή δύο datacenters.
Σε αυτό το σημείο παρεμβαίνει ο Mark Russinovich, CTO και deputy CISO της Microsoft Azure, ο οποίος τονίζει ότι τα σημερινά μοντέλα απαιτούν υποδομές πολλαπλάσιου μεγέθους σε σχέση με το παρελθόν. Η εταιρεία φαίνεται αποφασισμένη να δώσει απάντηση σε αυτή την πρόκληση όχι με αυξητικές βελτιώσεις αλλά με μια εντελώς νέα αρχιτεκτονική. Οι εγκαταστάσεις του superfactory περιλαμβάνουν exabytes αποθηκευτικού χώρου και εκατομμύρια CPU cores που λειτουργούν υποστηρικτικά στα κύρια GPU workloads, εξασφαλίζοντας ότι κάθε κομμάτι του συστήματος είναι βελτιστοποιημένο για συνεχές training.
Ο τελικός στόχος είναι ξεκάθαρος: η Microsoft θέλει να παρέχει την υποδομή που θα επιτρέψει στους συνεργάτες της, όπως την OpenAI και την εσωτερική της AI Superintelligence Team, να συνεχίσουν την ανάπτυξη μοντέλων που απαιτούν πρωτοφανή επίπεδα υπολογιστικής ισχύος. Αν το AI superfactory είναι δείγμα του τι έρχεται, τότε το μέλλον της πληροφορικής φαίνεται έτοιμο να ξεπεράσει τα όρια του cloud και να περάσει σε έναν νέο κόσμο, όπου η εκπαίδευση μοντέλων δεν περιορίζεται σε μία τοποθεσία, αλλά εκτελείται σε ένα διαμοιρασμένο υπερσύστημα που καταναλώνει, μεταφέρει και υπολογίζει δεδομένα σε μια αδιάκοπη λούπα.




