Nieuwsverslag Technologie
28 september 2023

Meta onthult 'Emu' om het genereren van AI-afbeeldingen te verbeteren

In het kort

Meta AI heeft een methode ontwikkeld om modellen voor het genereren van afbeeldingen te verbeteren met behulp van fotogenieke naalden in een hooiberg.

Het proces omvat het vooraf trainen van een diffusiemodel op een enorme dataset, waarbij tekstencoders worden gebruikt om een ​​resolutie van 1024×1024 pixels te bereiken.

De dataset wordt uitgebreid gefilterd, waarbij menselijke expertise ondermaatse beelden verwijdert.

Emu: de innovatieve aanpak van Meta AI om modellen voor het genereren van afbeeldingen te verbeteren

Meta AI heeft onlangs zijn bericht gedeeld research paper waarin een nieuwe aanpak wordt beschreven die is ontwikkeld om het genereren van stickers en afbeeldingen binnen zijn diensten te verbeteren. Het artikel, getiteld “Emu: Verbetering van beeldgeneratiemodellen met behulp van fotogenieke naalden in een hooiberg,' heeft tot doel aan te tonen hoe een 'op kwaliteit afgestemde' trainingsmethode de kwaliteit van het genereren van beelden aanzienlijk kan verhogen - zelfs op een kleine dataset.

Meta's Pre-trainingsmethode en modeldetails

De eerste fase omvat het vooraf trainen van een diffusiemodel met behulp van een enorme dataset bestaande uit 1.1 miljard beeld-tekstparen uit de interne bronnen van Meta AI. De fase is gebaseerd op een U-Net-model met maar liefst 2.8 miljard parameters. In combinatie met het model worden tekstencoders gebruikt, met name CLIP ViT-L en T5-XXL. Het uiteindelijke doel van het model is het genereren van een afbeelding met een resolutie van 1024×1024 pixels.

De dataset van het model wordt rigoureus gefilterd, waardoor meer dan 200,000 monsters worden geëlimineerd uit een verzameling van meer dan een miljard voorbeelden. Er worden meerdere filters toegepast, waaronder classificaties die de esthetiek van afbeeldingen beoordelen, mechanismen voor het weggooien van ongewenste inhoud, optische tekenherkenning (OCR) voor het uitsluiten van tekstrijke afbeeldingen, en op resolutie en verhoudingen gebaseerde filtering. Populariteitsstatistieken, zoals likes, hebben ook invloed op het filterproces.

Verwant: Meta onthult AI-integratie tussen services, van het generatieve Emu-model tot slimme brillen

In deze fase staat de menselijke expertise centraal. Generalisten, individuen met een uitgebreid begrip van data-annotatie, beoordelen de resterende 200,000 afbeeldingen en stellen een subset van 20,000 samen. Het primaire doel hier is om aanzienlijk ondermaatse afbeeldingen te identificeren en te verwijderen voor het geval de heuristieken die in de voorgaande stap zijn gebruikt, ontoereikend blijken te zijn.

Verwant: Meta introduceert 28 AI-personages en AI Studio voor uitgebreide creativiteit

Emu's vaardigheid om afbeeldingen te genereren

Een team van fotografiespecialisten, zeer goed geïnformeerd over fotografische principes, neemt de taak op zich om afbeeldingen te filteren en te selecteren. Hun doel is om afbeeldingen met de hoogste esthetische kwaliteit te identificeren en te behouden. Ze houden nauwgezet rekening met factoren als compositie, belichting, kleurenschema's, contrasten, thematische relevantie en achtergronden.

De laatste hand omvat het zorgvuldig vervaardigen van hoogwaardige tekstannotaties voor deze samengestelde dataset van 2,000 beeld-tekstparen.

Ten slotte traint het model op deze verfijnde dataset, waarbij 15,000 stappen worden voltooid met een batchgrootte van 64. Deze batchgrootte is relatief klein vergeleken met grote generatieve modellen. Hoewel het model misschien overtraind lijkt op basis van validatieverlies, wijzen menselijke evaluaties anders uit. Een soortgelijk fenomeen is waargenomen in taalmodellen.

Door dit georkestreerde, uit meerdere fasen bestaande proces bereikt Meta AI hoge kwaliteit beeldgeneratie. Deze methodologie is niet alleen bedoeld om de praktische voordelen van hun diensten te vergroten, maar onderstreept ook het belang van zorgvuldig beheer en menselijke expertise bij het verfijnen van door AI gegenereerde inhoud. Voor meer details kunt u het volledige programma verkennen artikel.

Een voorbeeld van het genereren van dezelfde aanwijzingen. Links staat het model na stap 1 (dat wil zeggen, gewoon voortrainen, zonder met de gegevens te rommelen), en rechts na het doorlopen van alle procedures.

Lees meer gerelateerde onderwerpen:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Tokenized RWA's overbruggen de kloof tussen DeFi en TradFi
Advies Toplijsten Business Markten Software Technologie
Tokenized RWA's overbruggen de kloof tussen DeFi en TradFi
24 juni 2024
Het huidige correctieniveau van Bitcoin ligt nog steeds onder het gemiddelde, zegt Crypto-analist van Rekt Capital
Markten Nieuwsverslag Technologie
Het huidige correctieniveau van Bitcoin ligt nog steeds onder het gemiddelde, zegt Crypto-analist van Rekt Capital
24 juni 2024
Kernontwikkelaars Open Source SRC Protocol's Indexer Code, inclusief SRC-20, SRC-721 en SRC-101 tokenstandaarden
Nieuwsverslag Software Technologie
Kernontwikkelaars Open Source SRC Protocol's Indexer Code, inclusief SRC-20, SRC-721 en SRC-101 tokenstandaarden
24 juni 2024
De opkomst en ondergang van de advertentieambities van Oracle: een droom van $ 2 miljard valt uiteen
Advies Business Lifestyle Markten Technologie
De opkomst en ondergang van de advertentieambities van Oracle: een droom van $ 2 miljard valt uiteen
24 juni 2024