Απρίλιος 05, 2023

8 πράγματα που πρέπει να ξέρετε για τα μεγάλα γλωσσικά μοντέλα

Δημοσιεύθηκε: 05 Απριλίου 2023 στις 4:29 π.μ. Ενημερώθηκε: 05 Απριλίου 2023 στις 4:30 π.μ.

Εν συντομία

Μεγάλα γλωσσικά μοντέλα (LLMs) χρησιμοποιούνται για τη διερεύνηση των αποχρώσεων της φυσικής γλώσσας, τη βελτίωση της ικανότητας των μηχανών να κατανοούν και να δημιουργούν κείμενο και να αυτοματοποιούν εργασίες όπως η αναγνώριση φωνής και η αυτόματη μετάφραση.

Δεν υπάρχει εύκολη λύση για τη διαχείριση των LLM, αλλά είναι εξίσου ικανοί με τους ανθρώπους.

Με την αύξηση της ανάπτυξης της επεξεργασίας φυσικής γλώσσας και της χρήσης της στις επιχειρήσεις, υπάρχει ένα αυξανόμενο ενδιαφέρον για μεγάλα γλωσσικά μοντέλα. Αυτά τα μοντέλα χρησιμοποιούνται για τη διερεύνηση των αποχρώσεων της φυσικής γλώσσας, τη βελτίωση της ικανότητας των μηχανών να κατανοούν και να δημιουργούν κείμενο και να αυτοματοποιούν εργασίες όπως η αναγνώριση φωνής και η αυτόματη μετάφραση. Εδώ είναι οκτώ βασικά πράγματα που πρέπει να γνωρίζετε για τα μεγάλα γλωσσικά μοντέλα (LLM).

10 πράγματα που πρέπει να ξέρετε για τα μεγάλα γλωσσικά μοντέλα — @Midjourney / Taka#4076

Πίνακας περιεχομένων

Τα LLM είναι πιο «ικανά» καθώς το κόστος αυξάνεται συνεχώς
Μια γρήγορη ματιά στο πώς GPT τα μοντέλα προσαρμόζονται καθώς αυξάνεται το κόστος εκπαίδευσης
Οι LLM μαθαίνουν να παίζουν επιτραπέζια παιχνίδια χρησιμοποιώντας αναπαραστάσεις του έξω κόσμου
Δεν υπάρχει εύκολη λύση για τη διαχείριση του LLM
Οι ειδικοί δυσκολεύονται να εξηγήσουν πώς λειτουργεί το LLM
Τα LLM είναι εξίσου ικανά με τους ανθρώπους
Τα LLMs πρέπει να είναι κάτι περισσότερο από «απλό jack of-all-trades»
Τα μοντέλα είναι πιο «έξυπνα» από ό,τι πιστεύουν οι άνθρωποι με βάση τις πρώτες εντυπώσεις

Τα LLM είναι πιο «ικανά» καθώς το κόστος αυξάνεται συνεχώς

Τα LLM είναι αναμενόμενα πιο «ικανά» με αυξανόμενα κόστη, ακόμη και χωρίς εντυπωσιακές καινοτομίες. Το κύριο πράγμα εδώ είναι η προβλεψιμότητα, η οποία παρουσιάστηκε στο άρθρο σχετικά GPT-4: διδάχτηκαν πέντε έως επτά μικρά μοντέλα με προϋπολογισμό 0.1% του τελικού και στη συνέχεια έγινε μια πρόβλεψη για ένα τεράστιο μοντέλο με βάση αυτό. Για μια γενική αξιολόγηση της αμηχανίας και των μετρήσεων σε ένα υποδείγμα μιας συγκεκριμένης εργασίας, μια τέτοια πρόβλεψη ήταν πολύ ακριβής. Αυτή η προβλεψιμότητα είναι σημαντική για τις επιχειρήσεις και τους οργανισμούς που βασίζονται σε LLM για τις δραστηριότητές τους, καθώς μπορούν να προϋπολογίσουν ανάλογα και να σχεδιάσουν τα μελλοντικά έξοδα. Ωστόσο, είναι σημαντικό να σημειωθεί ότι ενώ η αύξηση του κόστους μπορεί να οδηγήσει σε βελτιωμένες δυνατότητες, ο ρυθμός βελτίωσης μπορεί τελικά να αυξηθεί, καθιστώντας απαραίτητη την επένδυση σε νέες καινοτομίες για να συνεχιστεί η πρόοδος.

Μια γρήγορη ματιά στο πώς GPT τα μοντέλα προσαρμόζονται καθώς αυξάνεται το κόστος εκπαίδευσης

Ωστόσο, συγκεκριμένες σημαντικές δεξιότητες τείνουν να εμφανίζονται απρόβλεπτα ως υποπροϊόν της αύξησης κόστος εκπαίδευσης (μεγαλύτερη εκπαίδευση, περισσότερα δεδομένα, μεγαλύτερο μοντέλο) — είναι σχεδόν αδύνατο να προβλεφθεί πότε τα μοντέλα θα αρχίσουν να εκτελούν συγκεκριμένες εργασίες. Εξερευνήσαμε το θέμα πιο σε βάθος στο δικό μας άρθρο για την ιστορία της ανάπτυξης του GPT μοντέλα. Η εικόνα δείχνει την κατανομή της αύξησης της ποιότητας των μοντέλων σε διάφορες εργασίες. Μόνο τα μεγάλα μοντέλα μπορούν να μάθουν να κάνουν διάφορες εργασίες. Αυτό το γράφημα υπογραμμίζει τη σημαντική επίδραση της κλιμάκωσης του μεγέθους του GPT μοντέλα για την απόδοσή τους σε διάφορες εργασίες. Ωστόσο, είναι σημαντικό να σημειωθεί ότι αυτό έχει το κόστος των αυξημένων υπολογιστικών πόρων και των περιβαλλοντικών επιπτώσεων.

Οι LLM μαθαίνουν να παίζουν επιτραπέζια παιχνίδια χρησιμοποιώντας αναπαραστάσεις του έξω κόσμου

Οι LLM συχνά μαθαίνουν και χρησιμοποιούν αναπαραστάσεις του έξω κόσμου. Υπάρχουν πολλά παραδείγματα εδώ, και εδώ είναι ένα από αυτά: Εκπαιδευμένα μοντέλα για να παίξετε επιτραπέζια παιχνίδια βασισμένα σε περιγραφές μεμονωμένων κινήσεων, χωρίς να δείτε ποτέ εικόνα του αγωνιστικού χώρου, μάθετε εσωτερικές αναπαραστάσεις της κατάστασης του ταμπλό σε κάθε κίνηση. Αυτές οι εσωτερικές αναπαραστάσεις μπορούν στη συνέχεια να χρησιμοποιηθούν για προβλέψτε το μέλλον κινήσεις και αποτελέσματα, επιτρέποντας στο μοντέλο να παίξει το παιχνίδι σε υψηλό επίπεδο. Αυτή η ικανότητα εκμάθησης και χρήσης αναπαραστάσεων είναι ένα κλειδί πτυχή της μηχανικής μάθησης και τεχνητή νοημοσύνη.

Δεν υπάρχει εύκολη λύση για τη διαχείριση του LLM

Δεν υπάρχουν αξιόπιστες μέθοδοι για τον έλεγχο της συμπεριφοράς LLM. Αν και έχει σημειωθεί κάποια πρόοδος στην κατανόηση και τον μετριασμό διαφόρων προβλημάτων (συμπεριλαμβανομένων ChatGPT και GPT-4 με τη βοήθεια ανατροφοδότησης), δεν υπάρχει συναίνεση για το αν μπορούμε να τα λύσουμε. Υπάρχει αυξανόμενη ανησυχία ότι αυτό θα γίνει ένα τεράστιο, δυνητικά καταστροφικό πρόβλημα στο μέλλον, όταν δημιουργηθούν ακόμη μεγαλύτερα συστήματα. Ως εκ τούτου, οι ερευνητές διερευνούν νέες μεθόδους για να διασφαλίσουν ότι τα συστήματα τεχνητής νοημοσύνης ευθυγραμμίζονται με τις ανθρώπινες αξίες και στόχους, όπως η ευθυγράμμιση αξιών και η μηχανική ανταμοιβής. Ωστόσο, παραμένει ένα δύσκολο έργο να εγγυηθούμε ασφάλεια και αξιοπιστία των LLM σε πολύπλοκα σενάρια πραγματικού κόσμου.

Διαβάστε περισσότερα: OpenAI Συγκεντρώνει μια ομάδα 50+ ειδικών για βελτίωση GPT-4Ασφάλεια του

Οι ειδικοί δυσκολεύονται να εξηγήσουν πώς λειτουργεί το LLM

Οι ειδικοί δεν μπορούν ακόμη να ερμηνεύσουν την εσωτερική λειτουργία του LLM. Καμία τεχνική δεν θα μας επέτρεπε να δηλώσουμε με οποιονδήποτε ικανοποιητικό τρόπο τι είδους γνώσεις, συλλογισμούς ή στόχους χρησιμοποιεί το μοντέλο όταν παράγει οποιοδήποτε αποτέλεσμα. Αυτή η έλλειψη ερμηνείας εγείρει ανησυχίες σχετικά με την αξιοπιστία και τη δικαιοσύνη των αποφάσεων του LLM, ειδικά σε εφαρμογές υψηλού κινδύνου, όπως η ποινική δικαιοσύνη ή η βαθμολόγηση πιστώσεων. Υπογραμμίζει επίσης την ανάγκη για περαιτέρω έρευνα για την ανάπτυξη πιο διαφανών και υπεύθυνων μοντέλων τεχνητής νοημοσύνης.

Τα LLM είναι εξίσου ικανά με τους ανθρώπους

Αν και οι LLM εκπαιδεύονται κυρίως να μιμούνται την ανθρώπινη συμπεριφορά κατά τη σύνταξη κειμένου, έχουν τη δυνατότητα να μας ξεπεράσουν σε πολλά καθήκοντα. Αυτό φαίνεται ήδη όταν παίζετε σκάκι ή Go. Αυτό οφείλεται στην ικανότητά τους να αναλύουν τεράστιες ποσότητες δεδομένων και να λαμβάνουν αποφάσεις βάσει αυτής της ανάλυσης με ταχύτητα που δεν μπορεί να ταιριάξει ο άνθρωπος. Ωστόσο, τα LLM εξακολουθούν να στερούνται τη δημιουργικότητα και τη διαίσθηση που διαθέτουν οι άνθρωποι, γεγονός που τους καθιστά λιγότερο κατάλληλους για πολλές εργασίες.

Διαβάστε περισσότερα: OpenAI Συγκεντρώνει μια ομάδα 50+ ειδικών για βελτίωση GPT-4Ασφάλεια του

Τα LLMs πρέπει να είναι κάτι περισσότερο από «απλό jack of-all-trades»

Τα LLM δεν πρέπει να εκφράζουν τις αξίες των δημιουργών τους ή τις τιμές που κωδικοποιούνται σε μια επιλογή από το Διαδίκτυο. Δεν πρέπει να επαναλαμβάνουν στερεότυπα ή θεωρίες συνωμοσίας ή να επιδιώκουν να προσβάλλουν κανέναν. Αντίθετα, τα LLM θα πρέπει να σχεδιάζονται έτσι ώστε να παρέχουν αμερόληπτες και πραγματικές πληροφορίες στους χρήστες τους, με σεβασμό στις πολιτισμικές και κοινωνικές διαφορές. Επιπλέον, θα πρέπει να υποβάλλονται σε τακτικές δοκιμές και παρακολούθηση για να διασφαλίζεται ότι συνεχίζουν να πληρούν αυτά τα πρότυπα.

Τα μοντέλα είναι πιο «έξυπνα» από ό,τι πιστεύουν οι άνθρωποι με βάση τις πρώτες εντυπώσεις

Οι εκτιμήσεις για την ικανότητα ενός μοντέλου που βασίζονται στις πρώτες εντυπώσεις είναι συχνά παραπλανητικές. Πολύ συχνά, χρειάζεται να βρείτε τη σωστή προτροπή, να προτείνετε ένα μοντέλο και ίσως να δείξετε παραδείγματα και θα αρχίσει να ανταπεξέρχεται πολύ καλύτερα. Δηλαδή, είναι πιο «έξυπνο» από ό,τι φαίνεται με την πρώτη ματιά. Ως εκ τούτου, είναι σημαντικό να δώσουμε στο μοντέλο μια δίκαιη ευκαιρία και να του παρέχουμε τους απαραίτητους πόρους για να αποδώσει τα μέγιστα. Με τη σωστή προσέγγιση, ακόμη και τα φαινομενικά ανεπαρκή μοντέλα μπορούν να μας εκπλήξουν με τις δυνατότητές τους.

Εάν εστιάσουμε σε ένα δείγμα 202 εργασιών από το σύνολο δεδομένων BIG-Bench (ήταν ιδιαίτερα δύσκολο να δοκιμαστεί γλωσσικά μοντέλα από και προς), τότε κατά κανόνα (κατά μέσο όρο), τα μοντέλα παρουσιάζουν αύξηση της ποιότητας με την αύξηση της κλίμακας, αλλά μεμονωμένα, οι μετρήσεις στις εργασίες μπορούν:

βελτίωση σταδιακά,
βελτιωθεί δραστικά,
παραμένει αμετάβλητο,
μείωση,
δεν δείχνουν καμία συσχέτιση.

Όλα αυτά οδηγούν στην αδυναμία σίγουρης προέκτασης της απόδοσης οποιουδήποτε μελλοντικού συστήματος. Το πράσινο μέρος είναι ιδιαίτερα ενδιαφέρον — εδώ ακριβώς οι δείκτες ποιότητας ανεβαίνουν απότομα χωρίς κανένα λόγο.

Διαβάστε περισσότερα για το AI:

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ

Hot Stories

Inside Wall Street Memes (WSM): Αποκαλύπτοντας τους τίτλους

by Βανκτόρια palchik

07 Μαΐου 2024

Ανακαλύψτε Crypto Whales: Who's Who στην Αγορά

by Βανκτόρια palchik

07 Μαΐου 2024

Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Τελευταία νέα

Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Bitget Wallet παρουσιάζει το GetDrop Airdrop Η πλατφόρμα και λανσάρει την πρώτη εκδήλωση Meme Coin με έπαθλο 130,000 $

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Meson Network επιτρέπει στους Crypto Miners να αποκτούν διακριτικά μέσω εξόρυξης. AirdropΈρχονται και προγράμματα επαναγοράς

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα