Новини Технологии
Юни 21, 2023

Изследователите откриват нов начин за откриване на текст, генериран от AI

Накратко

Изследователите са разработили метод за откриване на текст, генериран от AI, използвайки модела RoBERTa, който извлича вграждания на текстови токени и ги визуализира като точки в многоизмерно пространство.

Те откриха, че текстът, генериран от GPT-3.5 модели, като напр ChatGPT и Davinci, имаше значително по-ниски средни размери от текста, написан от хора.

Изследователите създадоха здрав детектор, базиран на размерите, който беше устойчив на обичайните техники за избягване.

Точността на детектора остава постоянно висока, когато домейните и моделите се променят, с фиксиран праг и 40% спад на точността при тестване с техниката DIPPER.

Изследователите са изследвали областта на генерирания от AI текст и разработи метод за откриване на съдържание, генерирано от AI модели като GPT намлява Llama. Те откриха интересни прозрения за природата на генерирания текст, като използваха концепцията за дробно измерение. Техните открития хвърлят светлина върху присъщите разлики между текст, написан от хора, и текст, генериран от AI модели.

Изследователите откриват нов начин за откриване на текст, генериран от AI
Credit: Metaverse Post (mpost.io)
Прочети: Топ 100+ думи, откриваеми от AI детектори

Може ли измерението на облак от точки, извлечен от текст на естествен език, да предостави полезна информация за неговия произход? Изследователите са използвали модела RoBERTa, за да извлекат вграждания на текстови токени и да ги визуализират като точки в многоизмерно пространство, за да проучат това. Те оцениха частичния размер на тези облаци от точки, използвайки сложни техники, вдъхновени от предишни разработки.

Изследователите бяха изумени да открият този текст, генериран от GPT-3.5 модели, като напр ChatGPT и Davinci, имаше значително по-ниски средни размери от текста, написан от хора. Този интригуващ модел се запази в различни области и дори когато алтернативни модели като напр GPT-2 или OPT. Трябва да се отбележи, че дори при използване на парафраза DIPPER, която е специално проектирана да избягва откриване, измерението се променя само с около 3%. Тези открития позволиха на изследователите да създадат здрав детектор, базиран на размерите, който е устойчив на обичайните техники за избягване.

Трябва да се отбележи, че точността на детектора остава постоянно висока, когато домейни и модели се променят. С фиксиран праг, точността на откриване (истинска положителна честота) остава над 75%, докато фалшиво положителна честота (FPR) остава под 1%. Дори когато системата за откриване беше предизвикана с техниката DIPPER, точността падна до 40%, превъзхождайки съществуващите детектори, включително тези, разработени от OpenAI.

Освен това изследователите проучиха приложението на многоезични модели като многоезичния RoBERTa. Това им позволи да разработят подобни детектори за езици, различни от английския. Докато средното вътрешно измерение на вгражданията варира в различните езици, измерението на генерираните текстове остава постоянно по-ниско от това на текста, написан от хора за всеки конкретен език.

Въпреки това, детекторът показа някои слабости, особено когато се сблъска с високи температури на генериране и примитивен модели генератори. При по-високи температури вътрешното измерение на генерираните текстове може да надмине това на текст, написан от хора, което прави детектора неефективен. За щастие такива модели генератори вече могат да бъдат открити с алтернативни методи. Освен това изследователите признаха, че има място за изследване на алтернативни модели за извличане на текстови вграждания извън RoBERTa.

Разграничаване между текст, написан от хора и AI

През януари, OpenAI оповестен стартирането на нов класификатор, предназначен да прави разлика между текст, написан от хора, и текст, генериран от AI системи. Този класификатор има за цел да отговори на предизвикателствата, породени от нарастващото разпространение на съдържание, генерирано от AI, като кампании за дезинформация и академична нечестност.

Въпреки че откриването на целия текст, написан от AI, е сложна задача, този класификатор служи като ценен инструмент за смекчаване на неверни твърдения за човешко авторство в текст, генериран от AI. Чрез строги оценки на набор от английски текстове, разработчиците са открили, че този класификатор точно идентифицира 26% от текста, написан с AI като „вероятно написан с AI“ (истински положителни резултати), докато понякога погрешно етикетира текст, написан от хора, като генериран от AI (фалшив положителни) с 9%. Важно е да се отбележи, че надеждността на класификатора се подобрява с увеличаване на дължината на въведения текст. В сравнение с предишните класификатори, тази нова версия демонстрира значително по-висока надеждност на текст, генериран от по-нови AI системи.

За да съберат ценна обратна връзка за полезността на несъвършените инструменти като този класификатор, разработчиците го направиха обществено достъпни. Можете да изпробвате нашия незавършен класификатор безплатно. Важно е обаче да разберете неговите ограничения. Класификаторът трябва да се използва като допълнителен инструмент, а не като основен ресурс за вземане на решения, за определяне на източника на даден текст. Той проявява висока ненадеждност при кратки текстове и има случаи, в които текстът, написан от хора, може да бъде неправилно обозначен като генериран от AI.

Струва си да се отбележи, че силно предсказуемите текстове не могат да бъдат последователно идентифицирани, като например списък с първите 1,000 прости числа. Редактирането на текст, генериран от AI, също може да помогне за избягване на класификатора и въпреки че можем да актуализираме и обучим отново класификатора въз основа на успешни атаки, дългосрочното предимство на откриването остава несигурно. Освен това класификаторите, базирани на невронни мрежи често са лошо калибрирани извън своите данни за обучение, което води до изключителна увереност в неправилни прогнози за входове, значително различни от набора за обучение.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Orbiter Finance си партнира с Bitcoin Layer 2 Zulu Network и се внедрява в Is Lwazi Testnet
Бизнес Новини Технологии
Orbiter Finance си партнира с Bitcoin Layer 2 Zulu Network и се внедрява в Is Lwazi Testnet 
Май 7, 2024
Crypto Exchange Bybit интегрира USDe на Ethena Labs като обезпечителен актив, позволява двойки за търговия на BTC-USDe и ETH-USDe
пазари Новини Технологии
Crypto Exchange Bybit интегрира USDe на Ethena Labs като обезпечителен актив, позволява двойки за търговия на BTC-USDe и ETH-USDe
Май 7, 2024
Bitget Wallet представя GetDrop Airdrop Платформа и стартира първото събитие за мем монети с $130,000 XNUMX награден фонд
пазари Новини Технологии
Bitget Wallet представя GetDrop Airdrop Платформа и стартира първото събитие за мем монети с $130,000 XNUMX награден фонд
Май 7, 2024
От обикновен рефлекс до обучаващи се агенти: Разгледайте различните видове AI агенти и техните роли в съвременните приложения
Lifestyle Софтуер Истории и рецензии Технологии
От обикновен рефлекс до обучаващи се агенти: Разгледайте различните видове AI агенти и техните роли в съвременните приложения
Май 7, 2024
CRYPTOMERIA LABS PTE. LTD.