Η Qwen παρουσιάζει νέο μοντέλο Vision-Language για την προώθηση του προγραμματισμού, της συλλογιστικής και της πολυτροπικής απόδοσης της τεχνητής νοημοσύνης
Εν συντομία
Η ομάδα της Qwen λάνσαρε το ανοιχτού βάρους μοντέλο Qwen3.5‑397B‑A17B, εισάγοντας σημαντικές εξελίξεις στην πολυτροπική απόδοση, την ενισχυτική μάθηση και την αποτελεσματικότητα της εκπαίδευσης, στο πλαίσιο μιας ευρύτερης ώθησης προς πιο ικανούς, γενικού σκοπού πράκτορες Τεχνητής Νοημοσύνης.
Η ομάδα Qwen της Alibaba Cloud παρουσίασε το πρώτο μοντέλο της νέας σειράς Qwen3.5, αποκαλύπτοντας το ανοιχτού βάρους Qwen3.5‑397B‑A17B.
Τοποθετημένο ως ένα εγγενές σύστημα οπτικής γλώσσας, το μοντέλο προσφέρει ισχυρή απόδοση σε όλους τους τομείς της συλλογιστικής, της κωδικοποίησης, των εργασιών πρακτόρων και της πολυτροπικής κατανόησης, αντανακλώντας μια σημαντική πρόοδο στις προσπάθειες ανάπτυξης τεχνητής νοημοσύνης μεγάλης κλίμακας της εταιρείας.
Το μοντέλο βασίζεται σε μια υβριδική αρχιτεκτονική που συνδυάζει τη γραμμική προσοχή μέσω των Gated Delta Networks με ένα αραιό σχεδιασμό με μείγμα ειδικών, επιτρέποντας υψηλή απόδοση κατά την εξαγωγή συμπερασμάτων. Παρόλο που το πλήρες σύστημα περιέχει 397 δισεκατομμύρια παραμέτρους, μόνο 17 δισεκατομμύρια ενεργοποιούνται για κάθε περάσμα προς τα εμπρός, επιτρέποντάς του να διατηρεί υψηλή δυνατότητα μειώνοντας παράλληλα το υπολογιστικό κόστος. Η έκδοση επεκτείνει επίσης την κάλυψη γλωσσών και διαλέκτων από 119 σε 201, διευρύνοντας την προσβασιμότητα για χρήστες και προγραμματιστές παγκοσμίως.
Το Qwen3.5 σηματοδοτεί ένα σημαντικό άλμα στην ενισχυτική μάθηση και την αποτελεσματικότητα της προεκπαίδευσης
Η σειρά Qwen3.5 παρουσιάζει σημαντικά οφέλη σε σχέση με την Qwen3, τα οποία οφείλονται σε μεγάλο βαθμό στην εκτεταμένη κλιμάκωση της ενισχυτικής μάθησης σε ένα ευρύ φάσμα περιβαλλόντων. Αντί να βελτιστοποιήσει για στενά σημεία αναφοράς, η ομάδα επικεντρώθηκε στην αύξηση της δυσκολίας της εργασίας και της γενικευσιμότητας, με αποτέλεσμα τη βελτιωμένη απόδοση των πρακτόρων σε αξιολογήσεις όπως τα BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon και MCP‑Mark. Πρόσθετα αποτελέσματα θα παρουσιαστούν λεπτομερώς σε μια επερχόμενη τεχνική έκθεση.
Οι βελτιώσεις προ-εκπαίδευσης καλύπτουν την ισχύ, την αποδοτικότητα και την ευελιξία. Το Qwen3.5 εκπαιδεύεται σε σημαντικά μεγαλύτερο όγκο δεδομένων οπτικού κειμένου με ενισχυμένο πολύγλωσσο περιεχόμενο, περιεχόμενο STEM και συλλογισμού, επιτρέποντάς του να ταιριάζει με την απόδοση προηγούμενων μοντέλων τρισεκατομμυρίων παραμέτρων. Οι αρχιτεκτονικές αναβαθμίσεις -συμπεριλαμβανομένης της υψηλότερης αραιότητας MoE, της υβριδικής προσοχής, των βελτιώσεων σταθερότητας και της πρόβλεψης πολλαπλών διακριτικών- προσφέρουν σημαντικά κέρδη στην απόδοση, ιδιαίτερα σε εκτεταμένα μήκη περιβάλλοντος 32k και 256k διακριτικών. Οι πολυτροπικές δυνατότητες του μοντέλου ενισχύονται μέσω της πρώιμης σύντηξης κειμένου-όρασης και των διευρυμένων συνόλων δεδομένων που καλύπτουν εικόνες, υλικά STEM και βίντεο, ενώ ένα μεγαλύτερο λεξιλόγιο 250k βελτιώνει την αποτελεσματικότητα της κωδικοποίησης και της αποκωδικοποίησης στις περισσότερες γλώσσες.
Η υποδομή πίσω από το Qwen3.5 έχει σχεδιαστεί για αποτελεσματική πολυτροπική εκπαίδευση. Μια ετερογενής στρατηγική παραλληλισμού διαχωρίζει τα οπτικά και γλωσσικά στοιχεία για την αποφυγή συμφορήσεων, ενώ η αραιή ενεργοποίηση επιτρέπει σχεδόν πλήρη απόδοση ακόμη και σε μικτά φόρτα εργασίας κειμένου-εικόνας-βίντεο. Ένας εγγενής αγωγός FP8 μειώνει τη μνήμη ενεργοποίησης κατά περίπου το ήμισυ και αυξάνει την ταχύτητα εκπαίδευσης κατά περισσότερο από 10 τοις εκατό, διατηρώντας τη σταθερότητα σε τεράστιες κλίμακες token.
Η ενισχυτική μάθηση υποστηρίζεται από ένα πλήρως ασύγχρονο πλαίσιο ικανό να χειρίζεται μοντέλα όλων των μεγεθών, βελτιώνοντας την αξιοποίηση του υλικού, την εξισορρόπηση φορτίου και την αποκατάσταση σφαλμάτων. Τεχνικές όπως η ολοκληρωμένη εκπαίδευση του FP8, η κερδοσκοπική αποκωδικοποίηση, η επανάληψη του δρομολογητή ανάπτυξης και το κλείδωμα ανάπτυξης πολλαπλών στροφών βοηθούν στη διατήρηση της συνέπειας και στη μείωση της στασιμότητας της διαβάθμισης. Το σύστημα έχει σχεδιαστεί για να υποστηρίζει ροές εργασίας μεγάλης κλίμακας πρακτόρων, επιτρέποντας απρόσκοπτες αλληλεπιδράσεις πολλαπλών στροφών και ευρεία γενίκευση σε όλα τα περιβάλλοντα.
Οι χρήστες μπορούν να αλληλεπιδράσουν με το Qwen3.5 μέσω του Qwen Chat, το οποίο προσφέρει λειτουργίες Auto, Thinking και Fast ανάλογα με την εργασία. Το μοντέλο είναι επίσης διαθέσιμο μέσω του ModelStudio του Alibaba Cloud, όπου προηγμένες λειτουργίες όπως η συλλογιστική, η αναζήτηση στο web και η εκτέλεση κώδικα μπορούν να ενεργοποιηθούν μέσω απλών παραμέτρων. Η ενσωμάτωση με εργαλεία κωδικοποίησης τρίτων επιτρέπει στους προγραμματιστές να υιοθετήσουν το Qwen3.5 σε υπάρχουσες ροές εργασίας με ελάχιστες τριβές.
Σύμφωνα με την ομάδα Qwen, το Qwen3.5 θέτει τα θεμέλια για καθολικούς ψηφιακούς πράκτορες μέσω της υβριδικής αρχιτεκτονικής του και της εγγενούς πολυτροπικής συλλογιστικής του. Η μελλοντική ανάπτυξη θα επικεντρωθεί στην ενσωμάτωση σε επίπεδο συστήματος, συμπεριλαμβανομένης της μόνιμης μνήμης για μάθηση μεταξύ συνεδριών, των ενσωματωμένων διεπαφών για αλληλεπίδραση στον πραγματικό κόσμο, των μηχανισμών αυτοκατευθυνόμενης βελτίωσης και της οικονομικής επίγνωσης για μακροπρόθεσμη αυτόνομη λειτουργία. Στόχος είναι η μετάβαση από τους βοηθούς που αφορούν συγκεκριμένες εργασίες σε συνεκτικούς, επίμονους πράκτορες ικανούς να διαχειρίζονται σύνθετους, πολυήμερους στόχους με αξιόπιστη, ευθυγραμμισμένη με τον άνθρωπο κρίση.
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.
Περισσότερα άρθρα
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.