Dyrektor generalny Hugging Face przewiduje, że w 2024 r. dominować będą mniejsze modele sztucznej inteligencji
W skrócie
W 2024 r. pojawią się modele małego języka, ponieważ firmy będą przesuwać granice wydajności, opłacalności i dostępności.
W razie zamówieenia projektu sztuczna inteligencjarok 2024 będzie znaczącym punktem zwrotnym — wraz z rozwojem modeli małego języka (SLM), w miarę jak firmy przesuwają granice wydajności, opłacalności i dostępności.
Podróż od dominacji ogromnych modeli wielkojęzycznych (LLM) do pojawienia się zwartych, potężnych modeli SLM stanowi obietnicę przekształcenia Krajobraz AI.
Twierdzenie to znalazło swoje poparcie w Clamie Delangue, współzałożycielu i dyrektorze generalnym firmy Przytulanie Twarzy.
„Phi-2 firmy Microsoft AI jest obecnie najpopularniejszym modelem w Hugging Face. Rok 2024 będzie rokiem małych modeli sztucznej inteligencji!” powiedział Delangue w Post na LinkedIn.
Co więcej, na początku grudnia francuski startup Mistral zajmujący się sztuczną inteligencją wkrótce po zebraniu znacznej kwoty $ 415 mln rundzie finansowania, wprowadził Mixtral 8x7B, oprogramowanie SLM o otwartym kodzie źródłowym, które szybko zyskało popularność dzięki swojej zdolności do konkurowania jakością z GPT-3.5 w niektórych testach porównawczych, a wszystko to na jednym komputerze ze skromnymi 100 gigabajtami pamięci RAM.
Podejście Mistrala, zwane modelem „rzadkiej mieszanki ekspertów”, łączy mniejsze modele przeszkolone do konkretnych zadań, osiągając niezwykłą wydajność.
Nie daj się prześcignąć, technologiczny gigant Microsoft wszedł na arenę z Phi-2, najnowszą wersją własnego SLM. Szczególnie mały, z zaledwie 2.7 miliardami parametrów, Phi-2 został zaprojektowany do działania na telefonie komórkowym, co pokazuje zaangażowanie branży w zmniejszanie rozmiarów modeli bez kompromisów w zakresie możliwości.
Modele takie jak GPT-3, mogący pochwalić się oszałamiającą liczbą 175 miliardów parametrów, pokazał zdolność do generowania tekstu przypominającego ludzki, odpowiadania na pytania i podsumowywania dokumentów. Jednak nieodłączne wady LLM, w tym obawy związane z wydajnością, kosztami i możliwością dostosowania, utorowały drogę do popularności SLM.
Czynniki napędzające rozwój modelu językowego na małą skalę
SLM charakteryzują się usprawnionym podejściem z mniejszą liczbą parametrów, co skutkuje większą szybkością wnioskowania i wyższą przepustowością. Ich zmniejszone wymagania dotyczące pamięci i przechowywania sprawiają, że procesy obliczeniowe są elastyczne, co podważa konwencjonalne przekonanie, że pojemność modelu musi zawsze odpowiadać wzrostowi apetytu na dane.
Podczas gdy duże modele językowe, takie jak GPT-3 ponoszą wygórowane koszty – często liczone w dziesiątkach milionów dolarów na rozwój – SLM stanowią opłacalną alternatywę.
Modele te można szkolić, wdrażać i obsługiwać na łatwo dostępnym sprzęcie, co czyni je opłacalnym wyborem dla firm. Co więcej, ich skromne wymagania dotyczące zasobów sprawiają, że są idealnymi kandydatami do zastosowań w przetwarzaniu brzegowym, działających w trybie offline na urządzeniach o niższym poborze mocy.
Podobnie, kluczowa siła SLM leży w ich możliwości dostosowania. W przeciwieństwie do swoich większych odpowiedników, które stanowią kompromis w różnych domenach, SLM można precyzyjnie dostroić do konkretnych zastosowań. Ich szybkie cykle iteracyjne ułatwiają praktyczne eksperymenty, umożliwiając programistom dostosowywanie modeli do konkretnych potrzeb.
Gdy zbliżamy się do roku 2024, pojawienie się małych modeli językowych sygnalizuje erę transformacji w sztucznej inteligencji. Przygotowano etap na Rok Małych Modeli AI, w którym innowacje i dostępność zbiegają się w redefio możliwościach sztucznej inteligencji.
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Kumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.
Więcej artykułówKumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.