Rapport de nouvelles Technologie
12 octobre 2023

Les grands modèles linguistiques d'aujourd'hui seront de petits modèles, selon un chercheur de OpenAI

Hyung Won Chung, un chercheur accompli en IA qui était auparavant employé par Google Brain et est actuellement membre du OpenAI team, a prononcé un discours stimulant de 45 minutes dans lequel il a exploré le monde des grands modèles de langage en 2023. Chung a de l'expérience dans le domaine ; il a été le premier auteur de l'article de Google "Mise à l'échelle de modèles de langage affinés par les instructions,» qui examine comment de grands modèles de langage peuvent être formés pour suivre des instructions.

Hyung Won Chung, OpenAI

Chung souligne que le monde des modèles linguistiques extensifs est dynamique. Dans le monde des LLM, le principe directeur évolue constamment, contrairement aux domaines traditionnels où les hypothèses fondamentales restent généralement stables. Avec la prochaine génération de modèles, ce qui est actuellement considéré comme impossible ou peu pratique pourrait devenir possible. Il souligne l’importance de faire précéder la plupart des affirmations sur les capacités du LLM par « pour l’instant ». Un modèle peut effectuer une tâche ; ce n'est tout simplement pas encore fait.

Les grands modèles d’aujourd’hui seront des petits modèles dans quelques années seulement

Hyung Won Chung, OpenAI

La nécessité d'une documentation minutieuse et d'une reproductibilité dans Recherche sur l'IA C'est l'une des leçons les plus importantes à tirer du discours de Chung. Il est crucial de documenter minutieusement les travaux en cours à mesure que le domaine se développe. Cette stratégie garantit que les expériences peuvent être rapidement reproduites et revisitées, permettant aux chercheurs de s'appuyer sur des travaux antérieurs. Grâce à cette pratique, il est reconnu que des capacités qui n'étaient pas pratiques lors de la recherche initiale pourraient se développer à l'avenir.

Chung consacre une partie de son discours à élucider les subtilités du parallélisme des données et des modèles. Pour ceux qui souhaitent approfondir les aspects techniques de l’IA, cette section fournit des informations précieuses sur le fonctionnement interne de ces techniques de parallélisme. Comprendre ces mécanismes est crucial pour optimiser formation sur modèle à grande échelle.

Chung postule que la fonction objectif actuelle, Maximum Likelihood, utilisée pour la pré-formation LLM constitue un goulot d'étranglement lorsqu'il s'agit d'atteindre des échelles véritablement massives, telles que 10,000 XNUMX fois la capacité de GPT-4. À mesure que l’apprentissage automatique progresse, les fonctions de perte conçues manuellement deviennent de plus en plus limitantes.

Chung suggère que le prochain paradigme du développement de l’IA implique l’apprentissage de fonctions via des algorithmes distincts. Cette approche, bien qu’à ses balbutiements, promet une évolutivité au-delà des contraintes actuelles. Il souligne également les efforts en cours, tels que l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) avec modélisation de règles, comme des étapes dans cette direction, même si des défis restent à surmonter.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Le passage de Donald Trump à la cryptographie : d'opposant à défenseur, et ce que cela signifie pour le marché américain des cryptomonnaies
La Brochure Marchés Histoires et critiques Technologie
Le passage de Donald Trump à la cryptographie : d'opposant à défenseur, et ce que cela signifie pour le marché américain des cryptomonnaies
10 mai 2024
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
Marchés Rapport de nouvelles Technologie
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
10 mai 2024
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
Marchés Sécurité Wiki Logiciels Histoires et critiques Technologie
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
10 mai 2024
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
Rapport de nouvelles Technologie
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
10 mai 2024
CRYPTOMERIA LABS PTE. LTD.