Nieuwsverslag Technologie
04 september 2023

YaRN: nieuwe aanpak voor het uitbreiden van context in LLaMa-2 Tot 128 tokens

In het kort

YaRN, een nieuwe methode voor het uitbreiden van context in taalmodellen, gebruikt de RoPE-techniek voor positionele codering om grote contexten mogelijk te maken.

Het bevat een temperatuurparameter en is aanpasbaar aan bestaande modellen zoals Hugging Face.

Hoewel het herscholing vereist van gegevens die uitgebreide contexten bevatten, biedt YaRN waardevolle inzichten en verbeterde prestaties bij verschillende natuurlijke taalverwerkingstaken.

Een nieuwe methode bekend als Garen (Nog een RoPE voor Transformers) is ontstaan, die het potentieel biedt om contextmogelijkheden in grote taalmodellen (LLM's) uit te breiden met behulp van de RoPE-techniek voor positionele codering. Deze aanpak, zoals beschreven in een recent artikel, biedt de middelen daartoe breid de context uit tot 64k of zelfs 128k tokens. Deze innovatie is vooral opmerkelijk omdat deze tegemoetkomt aan de groeiende vraag naar modellen die substantiële context kunnen accommoderen, zoals uitgebreide teksten of lange berichtgeschiedenissen.

YaRN: nieuwe aanpak voor het uitbreiden van context in LLaMa-2 Tot 128 tokens
credit: Metaverse Post
Verwant: Meta onthult baanbrekende open source LLaMa-2-Chat met ongeëvenaarde prestaties

De RoPE-methode omvat het roteren van vectoren in de ruimte onder specifieke hoeken op basis van hun posities, en wordt vooral gebruikt in modellen zoals LLaMa-2. De YaRN-methode verschilt echter van eerdere wijzigingen door een geheel nieuwe component toe te voegen: een temperatuurparameter die cruciaal is voor het beïnvloeden van hoe snel mensen opletten na de softmax-operatie. Deze integratie van temperatuurregeling is belangrijk omdat hierdoor de oorspronkelijke structuur van de aandachtsmechanismen behouden blijft en de noodzaak van significante wijzigingen aan de bestaande codebasis wordt voorkomen.

Een intrigerend aspect van de implementatie van YaRN is het aanpassingsvermogen ervan met bestaande modellen die worden gehost op platforms zoals Hugging Face. Door de kracht van deze direct beschikbare modellen te benutten, kunnen onderzoekers en praktijkmensen relatief eenvoudig experimenteren met de YaRN-methode en deze verkennen.

MaatContextLink
7B64KNousResearch/Garen-Llama-2-7b-64k
7B128KNousResearch/Garen-Llama-2-7b-128k
13B64KNousResearch/Garen-Llama-2-13b-64k
13B128KNousResearch/Garen-Llama-2-13b-128k
Ontwikkelaars vrijgegeven Llama 2 varianten afgestemd met YaRN op respectievelijk 64K en 128K contextvensterlengtes. Ze zijn te vinden op Knuffelgezicht onder de Llama 2 licentie.

Het is vermeldenswaard dat YaRN, net als andere nieuwe technieken, herscholing vereist op het gebied van gegevens die uitgebreide contexten bevatten, zij het in een bescheiden hoeveelheid: ongeveer 0.1% van de gegevens vóór de training. De belangrijkste overweging in de toekomst heeft betrekking op de computerbronnen die nodig zijn voor het efficiënt afleiden met deze modellen met uitgebreide context, een aspect dat een centrale rol zal spelen in de praktische implementatie van deze innovatieve aanpak.

  • YaRN opent de deur naar uitgebreider contextueel begrip en biedt toepassingen die verschillende domeinen bestrijken, van literatuuranalyse tot conversationele AI. Terwijl de AI-gemeenschap methoden blijft onderzoeken om de modelmogelijkheden te verbeteren, biedt YaRN's genuanceerde benadering van het uitbreiden van de context het potentieel om waardevolle inzichten en verbeterde prestaties te bieden bij verschillende natuurlijke taalverwerkingstaken.
  • In juli, Meta is vrijgegeven LLaMa-2-Chat-modellen, een baanbrekend open-source taalmodel met 70 miljard parameters, vergelijkbaar met en beter presterend GPT-3.5 op bepaalde benchmarks. Het model is commercieel vriendelijk, voorgetraind op 2T-tokens en heeft sterke MMLU-scores. Het is het eerste model van zijn formaat dat is verfijnd met behulp van RLHF, waardoor het volledig gratis is voor commercieel gebruik. LLaMa-2-Chat levert uitzonderlijke prestaties bij wiskundige problemen en is verkrijgbaar in verschillende formaten.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
markten Nieuwsverslag Technologie
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
18 June 2024
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
Nieuwsverslag Technologie
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
18 June 2024
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
Advies Business markten Software Technologie
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
18 June 2024
dForce introduceert gedecentraliseerde Stablecoin sUSX voor het verdienen van rendement en biedt gebruikers verbeterde liquiditeit
Nieuwsverslag Technologie
dForce introduceert gedecentraliseerde Stablecoin sUSX voor het verdienen van rendement en biedt gebruikers verbeterde liquiditeit
18 June 2024