OpenFlamingo: Ein neues Open-Source-Bild-zu-Text-Framework von Meta AI und LAION
In Kürze
OpenFlamingo ist eine Open-Source-Version des Flamingo-Modells von DeepMind, die auf dem basiert LLaMA großes Sprachmodell.
Die Entwickler hoffen, ein multimodales System zu schaffen, das die Herausforderungen der Bildsprache und gleichwertiger Lösungen bewältigen kann GPT-4Stärke und Anpassungsfähigkeit im Umgang mit visuellen und textlichen Eingaben.
Die Open-Source-Version des Flamingo-Modells von DeepMind, ÖffnenFlamingo, wurde gerade veröffentlicht. OpenFlamingo ist im Grunde ein Framework, das das Training und die Bewertung umfangreicher multimodaler Modelle (LMMs) ermöglicht. OpenFlamingo basiert auf dem LLaMA großes Sprachmodell, entwickelt von Meta AI.
Die Beiträge der Entwickler zu dieser ersten Version lauten wie folgt:
- Ein umfangreicher multimodaler Datensatz, der Text und visuelle Sequenzen kombiniert.
- Ein Maßstab für die kontextbezogene Lernevaluation für Aktivitäten wie Sehen und Sprache.
- Eine vorläufige Version unseres LLaMA-basiertes OpenFlamingo-9B-Modell.
Mit OpenFlamingo hoffen Entwickler, ein multimodales System zu schaffen, das eine Vielzahl von Herausforderungen im Bereich Vision-Sprache bewältigen kann. Das ultimative Ziel ist die Gleichstellung GPT-4Stärke und Anpassungsfähigkeit im Umgang mit visuellen und textlichen Eingaben. Um dieses Ziel zu erreichen, entwickeln Entwickler eine Open-Source-Version des Flamingo-Modells von DeepMind, einem LMM, das Bilder, Videos und Text verarbeiten und analysieren kann. Entwickler widmen sich der Entwicklung vollständiger Open-Source-Modelle, weil sie der Meinung sind, dass Transparenz für die Förderung der Zusammenarbeit, die Beschleunigung der Entwicklung und die Demokratisierung des Zugangs zu hochmodernen LMMs von entscheidender Bedeutung ist.
Sie stellen den ersten Kontrollpunkt unseres OpenFlamingo-9B-Modells bereit. Obwohl das Modell noch nicht vollständig optimiert ist, zeigt es das Versprechen des Projekts. Entwickler können bessere LMMs trainieren, indem sie kooperieren und Community-Feedback erhalten. Sie laden die Öffentlichkeit ein, Beiträge zu leisten und das Repository zu ergänzen, um sich am Entwicklungsprozess zu beteiligen.
Die Implementierung ähnelt stark der von Flamingo. Flamingo-Modelle müssen an umfangreichen Webdatensätzen mit verschachteltem Text und trainiert werden Grafik um sie mit kontextbezogenen Fear-Shot-Lernfähigkeiten auszustatten. Die gleiche Architektur, die in der ursprünglichen Flamingo-Studie vorgeschlagen wurde (Perceiver-Resampler, Cross-Attention-Layer), ist in OpenFlamingo implementiert. Da die Trainingsdaten von Flamingo jedoch nicht für die breite Öffentlichkeit zugänglich sind, verwenden Entwickler Open-Source-Datensätze zum Trainieren von Modellen. Der neu veröffentlichte OpenFlamingo-9B-Checkpoint wurde speziell auf 10 Millionen Proben aus LAION-2B und 5 Millionen Proben aus dem neuen multimodalen C4-Datensatz trainiert.
Entwickler integrieren auch einen Checkpoint aus unserem unvollendeten LMM OpenFlamingo-9B, der darauf basiert LLaMA 7B und CLIP ViT/L-14, als Teil der Veröffentlichung. Auch wenn sich dieses Konzept noch in der Entwicklung befindet, könnte die Community bereits jetzt großen Nutzen daraus ziehen.
Sehen Sie sich zunächst die an GitHub Quelle und Demo.
Lesen Sie mehr über KI:
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere ArtikelDamir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.