15. März 2023

Facebook entwickelt eine neue Methode zur Leistungsverdopplung von KI-Transformern

Veröffentlicht: 15. März 2023 um 4:00 Uhr. Aktualisiert: 15. März 2023 um 4:00 Uhr

In Kürze

Facebook hat eine neue Methode entwickelt, um die Leistung von KI-Transformatoren basierend auf der Transformer-Architektur zu verdoppeln.

Das neue Verfahren findet die ähnlichsten Patches in den Lücken zwischen der Verarbeitung verschiedener Blöcke und kombiniert sie, um die Rechenkomplexität zu reduzieren.

Facebook hat eine entwickelt Neue Methode zur Verdoppelung der Leistung von KI-Transformatoren. Die Methode ist basierend auf der Transformatorarchitektur und ist speziell für Langformtext wie Bücher, Artikel und Blogs konzipiert. Das Ziel des neuen KI-Transformators ist es, die Leistung von zu verbessern transformatorbasierte Modelle auf Langformtext, indem sie effizienter und effektiver bei der Handhabung langer Sequenzen werden. Die Ergebnisse des KI-Transformators sind sehr vielversprechend, und diese neue Methode hat die Chance, die Leistung transformatorbasierter Modelle bei einer Vielzahl von Aufgaben zu verbessern.

Es wird erwartet, dass diese neue Methode einen erheblichen Einfluss auf Aufgaben der Verarbeitung natürlicher Sprache haben wird, wie z. B. Sprachübersetzung, Zusammenfassung und Frage-Antwort-Systeme. Es wird auch erwartet, dass es zur Entwicklung ausgefeilterer KI-Modelle führt, die längere und komplexere Texte verarbeiten können.

Facebook hat eine neue Methode entwickelt, um die Leistung von KI-Transformatoren zu verdoppeln

Mehr lesen: 10+ beste KI-Fotoeditoren 2023: Online und kostenlos

Um das Bild zu verarbeiten, schneiden moderne Transformer es in Patches (normalerweise Quadrate: siehe gif unten) und bearbeiten dann Repräsentationen dieser Partikel, von denen jedes durch ein „Token“ repräsentiert wird. Wie wir wissen, arbeiten Transformer langsamer, je mehr dieser Token-Stücke vorhanden sind (dies gilt sowohl für Texte als auch für Bilder), und der häufigste Transformer hat eine quadratische Beziehung. Das heißt, je mehr Token hinzugefügt werden, desto langsamer wird die Verarbeitung. Um dieses Problem anzugehen, haben Forscher verschiedene Techniken vorgeschlagen, um die Anzahl der für die Bildverarbeitung erforderlichen Token zu reduzieren, wie z. B. hierarchisches und adaptives Pooling. Diese Methoden zielen darauf ab, die Qualität der Ausgabe aufrechtzuerhalten und gleichzeitig den Rechenaufwand zu minimieren.

Das neue Verfahren findet die ähnlichsten Patches in den Lücken zwischen der Verarbeitung verschiedener Blöcke und kombiniert sie, um die Rechenkomplexität zu reduzieren. Der Anteil der zusammengeführten Token ist ein Hyperparameter; Je höher es ist, desto geringer ist die Qualität, aber desto höher ist auch die Beschleunigung. Experimente zeigen, dass es möglich ist, etwa 40 % der Token mit einem Qualitätsverlust von 0.1 - 0.4 % zusammenzuführen und eine doppelte Beschleunigung zu erzielen (wodurch weniger Speicher verbraucht wird). Diese neue Methode ist eine vielversprechende Lösung zur Reduzierung der Rechenkomplexität der Bildverarbeitung und könnte eine schnellere und effizientere Verarbeitung ermöglichen, ohne die Qualität der Endausgabe zu beeinträchtigen.

Wenn wir visualisieren, welche Patches wir zusammenführen, können wir sehen, dass sie 1) nahe beieinander liegen und 2) dasselbe Objekt beschreiben (siehe Bereiche mit derselben Farbe auf dem GIF). Das heißt, es gehen keine wesentlichen Informationen verloren; das Objekt bleibt „im Blickfeld“ des Modells. Je später dies im Transformer angewendet wird, desto mehr Tokens werden zusammengeführt (da dies übergeordnete Repräsentationen sind, die selbst den Inhalt des Bildes gut beschreiben).

Solche technischen Ansätze, die auf Einfallsreichtum und Verständnis dafür basieren, wie etwas funktioniert, sehen sehr ansprechend aus. Außerdem versprechen die Entwickler von Meta, mehr zu StableDiffusion zu bringen, um die Dinge auch dort zu beschleunigen. Es ist großartig, dass sich solche Tricks schnell in den unterschiedlichsten Modellen umsetzen lassen, da es überall Transformatoren gibt. Dies zeigt das Potenzial technischer Lösungen für eine breite Wirkung in verschiedenen Branchen. Es wird interessant sein zu sehen, wie sich diese Fortschritte auswirken Transformator-Modelle wird sich im Laufe der Zeit weiterentwickeln und verbessern.

Meta AI und Paperswithcode haben das erste 120B-Modell Galactica veröffentlicht, das mit wissenschaftlichen Texten trainiert wurde und genauere und schnellere Vorhersagen ermöglicht. Das Ziel von Galactica ist es, Forschern dabei zu helfen, das Wichtige vom Unwichtigen zu trennen.

Lesen Sie weitere verwandte Nachrichten:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen