Eksperter advarer mod 'ondsindede indsættelser' i AI-datasæt i ChatGPT
Kort sagt
ChatGPT er potentielt sårbare på grund af træningsdataene.
Ifølge forskere kunne vi for kun $60 i USA forgifte 0.01% af LAION-400 eller COYO-700 datasættene i 2022.
ChatGPT teknologi bliver stadig mere populær, men nyere forskning tyder på, at denne teknologi kan være sårbar på grund af de træningsdata, den bruger. Efterhånden som modeller bliver mere komplekse og datasæt bliver større og mere komplekse, kan ondsindede aktører udnytte denne sårbarhed til at manipulere datasættene og få maskinlæringsmodellerne til at producere unøjagtige resultater.
Anbefalet: Top 10 mest lovende aktier forudsagt af ChatGPT (AI) for at overgå førende verdensfonde i 2023 |
Den primære bekymring er, at chatbot-databaser ofte er "betinget verificerede" datasæt, hvilket betyder, at der er en vis grad af tillid til dataene uden omfattende verifikation. Med andre ord kan disse datasæt ofte have underliggende problemer, som ikke er blevet overvejet. Selvom validering af datasæt ofte ikke udføres på grund af deres store størrelse, er der mulighed for, at ondsindede aktører kan manipulere disse data.
Faktisk har forskere foreslået, at angribere i 2022 kunne bruge anslået 60 dollars på at forgifte 0.01 % af LAION-400- eller COYO-700-datasættene. Selvom dette ikke lyder af meget, kan ondsindede aktører bruge disse forgiftede data til egen vinding, hvis de ikke kontrolleres. De ondsindede data kan i sidste ende lække ind i større datasæt, hvilket ødelægger datakvaliteten og fører til upålidelige maskinlæringsmodeller.
Det er nødvendigt at tage skridt til at beskytte databaser mod skadelige data. Samling af flere datakilder bør blive standarden for chatbot træningsdatasæt for at sikre, at dataene er pålidelige og nøjagtige. Derudover bør virksomheder eksperimentere med datasæt for at sikre, at de ikke er sårbare over for ondsindede aktører.
AI Chatbots med ondsindet kode kan være sårbare over for hacking
Truslen om ondsindet kode i chatbots kan være ret alvorlig; ondsindet kode kan bruges til at stjæle brugerdata, aktivere ondsindet adgang til servere og aktivere ondsindede aktiviteter som f.eks. hvidvaskning eller dataeksfiltrering. Hvis en AI-chatbot trænes på data med ondsindede indsættelser, kan den ubevidst injicere den ondsindede kode i sine svar og ubevidst blive brugt som et værktøj til ondsindet vinding.
Det er muligt for ondsindede aktører at drage fordel af denne sårbarhed ved enten bevidst eller utilsigtet at indføre ondsindet kode i træningsdata. Da AI-chatbots desuden lærer af de data, de præsenteres med, kan dette også potentielt føre til, at de lærer forkerte svar eller endda ondsindet adfærd.
En anden fare, som AI-chatbots kan stå over for, er "overfitting". Dette er, når forudsigelsesmodeller trænes for tæt på de data, de fik, hvilket fører til dårlige forudsigelser, når de præsenteres med nye data. Dette kan være et særligt problem som AI chatbots trænet i ondsindet kode kunne potentielt blive mere effektive til at injicere ondsindet kode i deres svar, efterhånden som de bliver mere fortrolige med dataene.
Det er vigtigt at være opmærksom på risiciene og tage forholdsregler for at garantere de træningsdata, der bruges til at undervise ChatGPT er sikker og pålidelig for at forhindre disse potentielle svagheder. De oprindelige data, der bruges til træning, skal også holdes adskilte og unikke; promovering af "ondsindede indlæg" må ikke være i konflikt med eller overlappe med andre kilder. Det bør undersøges og sammenlignes med andre domæner, hvis det er muligt at "fange" flere bekræftede domæner for at validere dataene.
Chatbot-teknologien lover at ændre, hvordan folk fører menneskelige diskussioner. Men før det kan realisere sit fulde potentiale, skal det forbedres og beskyttes. Datasæt til chatbots skal være godt tjekket og klargjort for at afværge ondsindede aktører. Ved at gøre dette kan vi sikre, at vi fuldt ud udnytter teknologiens potentiale og bliver ved med at presse på grænser af kunstig intelligens.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.