Analýza společnosti Google odhaluje překvapivé poznatky o LLM a přesnosti vyhledávače
Na začátku září uspořádal Yandex soukromou minikonferenci o generativní umělé inteligenci, která poskytla platformu pro hluboké ponory do světa umělé inteligence. Přesto konference přinesla významná odhalení, zejména týkající se tolik očekávaného YandexuGPT 2.
Odhalení Yandexu YandexGPT 2 komunita umělé inteligence bzučela očekáváním. Tvůrci tohoto modelu prozkoumali různé rozlišovací funkce, včetně specializovaného modulu určeného k vyhledávání a poskytování odpovědí na základě dat výsledků vyhledávání.
Odhalení týmu odhalila pozoruhodný aspekt: i když byl tento proprietární model trénován na rozsáhlém úložišti interních dat Yandex zahrnující více než deset let práce na mechanismech neurálního vyhledávání, stále nedosahoval impozantního GPT-4. Tento významný vývoj podtrhuje pozoruhodné pokroky, kterých bylo dosaženo GPT-4. Toto pozorování zdůrazňuje GPT-4nadřazenost jak nad proprietárním vývojem, tak nad předchozími iteracemi open source.
Rozšíření o tyto základní poznatky, Google provedl studii k posouzení správnosti odpovědí z Velké jazykové modely (LLM) s přístupem k vyhledávači. Ačkoli myšlenka integrace externího nástroje s LLM není nová, Google zjistil, že složitost spočívá v jemném hodnocení a ověřování těchto modelů. Rozhodující faktory utvářející tuto integraci zahrnují výběr pečlivě vytvořené výzvy a vnitřní schopnosti LLM.
Metodika testování LLM společnosti Google
Kurátorský korpus 600 otázek byl rozdělen do čtyř odlišných skupin. Každá skupina upřednostňovala faktickou přesnost, ale jedna skupina vynikala tím, že zahrnovala otázky zakořeněné ve falešných premisách.
Například otázky typu „co napsal Trump po zrušení zákazu na Twitteru?“ obsahovala nepřesný předpoklad, protože Trump nebyl zakázán. Zbývající tři skupiny zavedly proměnné zastaralosti odpovědí: nikdy, zřídka a často. Ve skupině „nikdy“ se očekávalo, že LLM budou odpovídat čistě z paměti, zatímco otázky týkající se nedávných událostí vyžadovaly vyhledávání v reálném čase. Každá skupina se skládala ze 125 otázek.
Otázky byly předloženy různému spektru modelů. Je zajímavé, že otázky obsahující falešné premisy odhalily dominanci GPT-4 a ChatGPT, který tyto premisy obratně vyvracel a uvedl jejich specifické školení pro zvládnutí takových výzev.
Následovala srovnávací analýza, pitting ChatGPT, GPT-4, Google vyhledávání (na základě úryvků textu nebo odpovědí na první stránce) a PPLX.AI (platforma využívající ChatGPT agregovat odpovědi Google, zaměřené na vývojáře) proti sobě. V této souvislosti LLM poskytovali odpovědi výhradně ze své paměti.
Pozoruhodným pozorováním je, že vyhledávání Google poskytlo správné odpovědi v průměru ve 40 % případů napříč čtyřmi skupinami. Přesnost „věčných“ otázek byla 70 %, zatímco otázky s falešným předpokladem klesly na pouhých 11 %. ChatGPT's výkon dosáhl v průměru 26 %, zatímco GPT-4 dosáhl 28 %, přičemž působivě odpověděl na otázky s nepravdivými předpoklady ve 42 % případů. PPLX.AI prokázala 52% úspěšnost.
Studie se ponořila hlouběji integrací nového přístupu. Každá otázka vyvolala vyhledávání Google a výsledky byly začleněny do výzvy. LLM pak museli „přečíst“ tyto informace před sestavením svých odpovědí. Tato technika umožnila výuku několika výstřelů (kde jsou příklady uvedeny v výzva k vedení modelu) a promyšlené zvážení krok za krokem před odpovědí.
Výsledky nebyly nic menšího než fascinující. GPT-4 vykázal pozoruhodné 77% hodnocení kvality, odpovídal na „věčné“ otázky s 96% přesností a řešil otázky s falešnými předpoklady s chvályhodnou 75% přesností. Zatímco ChatGPT nabídl o něco méně působivé metriky, překonal jak PPLX.AI, tak vyhledávání Google.
Zvládnutí AI Prompt Design: Klíčové statistiky od PPLX.AI a Google Experts
Schopnost efektivně vést velké jazykové modely (LLM) labyrintem informací není maličkost. Nicméně, nedávný průzkum AI výzvy osvětlila klíčové strategie, které slibují zvýšení kvality odpovědí generovaných LLM, a nabízí pohled do jemné mechaniky pomoci AI.
Základ pro toto zjevení byl založen pečlivým rychlým strukturováním. Tato metoda se skládá z více složek a nabízí jasnou cestu k dosažení přesných odpovědí, pevně zakotvených v kontextuálním porozumění. Počáteční aspekt zahrnuje ilustrativní příklady, které slouží jako vodítko a nasměrují LLM ke správné odpovědi na základě kontextových vodítek.
druhá vrstva odhaluje skutečný dotaz spolu s 10-15 výsledky vyhledávání. Tyto výsledky přesahují pouhé odkazy na webové stránky a zahrnují množství informací, včetně textového obsahu, relevantních dotazů, otázek, odpovědí a znalostních grafů. Tento přístup vybavuje AI komplexní znalostní knihovnou.
Propracovanost tohoto systému jde ještě dále. Zásadní objev se objevil při chronologickém uspořádání odkazů v rámci výzvy a umístění nejnovějších doplňků na konec. Toto chronologické uspořádání odráží vyvíjející se povahu informací a umožňuje modelu rozeznat časovou osu změn. Zahrnutí dat do každého příkladu hrálo klíčovou roli při zlepšování kontextuálního porozumění.
zatímco kód zaměstnat tato nuance promptní struktura je dychtivě očekávána, její absence přiměla nadšence, aby se pustili do přepisování promptních šablon na základě poskytnutých obrázků.
Z tohoto vpádu do mechaniky výzev umělé inteligence vyplývá několik klíčových poznatků:
1) PPLX.AI, platforma, která využívá ChatGPT agregovat odpovědi Google, se ukázalo jako slibná možnost. Dokonce i zaměstnanci Googlu naznačili jeho nadřazenost.
2) Experimentování s různými prvky přineslo vylepšení v metrikách odezvy. Zdá se, že přesnost v rychlé konstrukci je umění samo o sobě.
3) GPT-4 prokazuje chvályhodnou zručnost ve zpracování rozsáhlých souborů zpráv a textů. I když nemusí být charakterizován jako „výborný“, jeho kvalita se i v rychle se měnících scénářích zpráv pohybuje kolem 60% hranice. Komunitě umělé inteligence se doporučuje, aby takové metriky kriticky vyhodnotila.
4) Jak se ekosystém umělé inteligence neustále rozšiřuje, LLM integrované do vyhledávačů jsou připraveny stát se všudypřítomnými a uspokojit široké spektrum uživatelů. Přítomnost AI v každodenním životě zážitky z hledání je na vzestupné trajektorii, což znamená transformativní posun ve způsobu přístupu k informacím a jejich zpracování.
Mnohostranný přístup nabízí slibný způsob, jak získat přesné odpovědi z těchto sofistikovaných jazykových modelů, protože obsahuje názorné příklady defined dotazu a množství kontextových informací. Chronologické uspořádání odkazů v rámci výzev vedlo k významnému náhledu, podtrhujícímu význam přizpůsobení se dynamické povaze informací. LLM se mohou orientovat v časové ose změn díky tomuto časovému povědomí, což zlepšuje jejich kontextové chápání.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.