Istraživači MIT-a i Googlea predstavljaju StableRep, AI-model za poboljšanje proizvodnje slika
Ukratko
Računalni znanstvenici s MIT-a i Googlea predstavili su StableRep, model umjetne inteligencije koji pretvara tekstualne upite u točne slike pomoću Stable Diffusion.
MIT i Google Računalni znanstvenici predstavili su StableRep, AI-model dizajniran za transformaciju opisnih pisanih naslova u točne odgovarajuće slike pomoću slika koje generira Stable Diffusion. Ovaj alat je usmjeren na poboljšanje sposobnosti neuronskih mreža za generiranje slika na temelju tekstualnih opisa.
Prema istraživačima, sintetičke slike mogu pomoći AI modelima da točnije nauče vizualne prikaze u usporedbi sa stvarnim fotografijama.
StableRep ima za cilj osnažiti istraživače da upravljaju algoritamskim procesom strojnog učenja obučavanjem modela na mnoštvu slika koje generira Stable Diffusion kao odgovor na isti upit. Stoga će model naučiti širi raspon vizualnih prikaza, defipronalaženje slika koje su usko usklađene s danim uputama.
Istraživači predviđaju pojavu ekosustava modela umjetne inteligencije, od kojih će neki biti obučeni na stvarnim ili sintetičkim podacima. Trenutačno su napori usmjereni na podučavanje modela da nauči više o konceptima visoke razine kroz kontekstualno razumijevanje i varijabilnost, umjesto da mu se jednostavno dodaju podaci.
StableRep će pomoći AI programerima i motorima
U srži modeli teksta u sliku leži njihova sposobnost povezivanja predmeta s riječima. Kada im se prikaže upit za unos teksta, ovi bi modeli trebali generirati sliku koja u potpunosti odgovara navedenom opisu. Da bi to postigli, moraju steći razumijevanje vizualnih prikaza objekata iz stvarnog svijeta.
Prema nedavnom papir za predtisak na arXiv, StableRep nadmašuje SimCLR i CLIP u smislu naučenih prikaza korištenjem istog skupa tekstualnih upita i odgovarajućih stvarnih slika na velikim skupovima podataka, oslanjajući se isključivo na sintetičke slike.
Rad nastavlja: "Kada dodatno uvedemo nadzor jezika, StableRep obučen s 20 milijuna sintetičkih slika postiže bolju točnost od CLIP-a obučenog s 50 milijuna stvarnih slika."
SimCLR i CLIP algoritmi su strojnog učenja koji se koriste za generiranje slika iz tekstualnih upita.
Ovaj inovativni pristup omogućuje razvojnim programerima umjetne inteligencije da treniraju neuronske mreže s manje sintetičkih slika od stvarnih uz postizanje boljih rezultata. Pojava metoda sličnih StableRepu sugerira budućnost u kojoj bi se modeli teksta u sliku mogli trenirati uglavnom na sintetičkim podacima, smanjujući ovisnost o stvarnim slikama i podržavajući AI motore kada se suoče s ograničenjima u dostupnim mrežnim resursima.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Alisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.
Više članakaAlisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.