Nyhetsrapport Teknologi
Mars 15, 2023

OpenAI Sammanställer ett team av 50+ experter för att förbättra GPT-4s säkerhet

I korthet

OpenAI har anställt ett team på över 50 experter för att säkerställa att det är det senaste språkmodell, GPT-4, är säker att använda.

Teamet inkluderar forskare och ingenjörer som specialiserar sig på AI-säkerhet, etik och policy.

Syftet är att förebygga GPT-4 från att generera skadligt eller partiskt innehåll och se till att det överensstämmer med mänskliga värderingar.

OpenAI Sammanställer ett team av 50+ experter för att förbättra GPT-4s säkerhet

OpenAI har anställt över 50 experter från olika domäner för att göra GPT-4 säkrare. Experterna har arbetat med kontradiktoriska tester av modellen för att identifiera potentiella risker och sårbarheter. De är experter från olika områden: långsiktiga AI-anpassningsrisker, cybersäkerhet, biorisk och internationell säkerhet. Deras resultat har hjälpt OpenAI utvärdera modellbeteende inom högriskområden som kräver nischkompetens. 

Medan den nyaste språkmodellen innebär liknande risker som mindre språkmodeller, har de ytterligare funktionerna GPT-4 leda till nya hot. Således har engagemanget av experter varit avgörande för att säkerställa teknikens säkerhet.

OpenAI har implementerat ytterligare en uppsättning säkerhetsrelevant förstärkningsinlärning från mänskliga preferenser (RLHF) utbildningsuppmaningar och regelbaserade belöningsmodeller (RBRM) för att förbättra säkerheten för GPT-4 modell. RBRM:erna är nollskjutna GPT-4 klassificerare som fungerar som en extra belöningssignal för GPT-4 policymodell under RLHF-finjustering. Deras syfte är att uppmuntra lämpligt beteende, som att vägra generera skadligt innehåll eller att inte avvisa ofarliga förfrågningar.

För att säkerställa säkerheten för GPT-4 modeller, OpenAI började rekrytera externa experter i augusti 2022 för att genomföra "red teaming"-övningar, inklusive stresstester, gränstester och kontradiktoriska tester. De hade tillgång till tidiga versioner av GPT-4 modell och identifierade initiala risker som motiverade ytterligare säkerhetsforskning.

Experternas feedback ledde till tekniska begränsningar och policytillämpningsåtgärder för att minska riskerna. Många hot kvarstår dock och ytterligare utvärdering behövs.

På tal om anställda på OpenAI, ChatGPT var ursprungligen utvecklade med hjälp från individer i några av världens fattigaste regioner genom OpenAIs partnerskap med ett företag som heter Sama, som sysselsätter miljontals arbetare från fattiga områden. Vissa experter inom AI-etik har kritiserat OpenAIs beslut att lägga ut utbildningen av sin ChatGPT modell till Sama och anklagar företaget för att utnyttja lågkostnadsarbetskraft.

Läs mer:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Agne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].

fler artiklar
Agne Cimerman
Agne Cimerman

Agne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Företag Nyhetsrapport Teknologi
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Maj 3, 2024
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Marknader Nyhetsrapport Teknologi
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Maj 3, 2024
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Marknader Nyhetsrapport Teknologi
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Maj 3, 2024
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Företag Nyhetsrapport Teknologi
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Maj 3, 2024