Звіт про новини Технологія
21 Червня, 2023.

Дослідники відкривають новий спосіб виявлення тексту, створеного ШІ

Коротко

Дослідники розробили метод виявлення тексту, створеного штучним інтелектом, за допомогою моделі RoBERTa, яка витягує вбудовування текстових токенів і візуалізує їх як точки в багатовимірному просторі.

Вони виявили, що текст, створений GPT-3.5 моделі, наприклад ChatGPT і Давінчі, мали значно нижчі середні розміри, ніж текст, написаний людиною.

Дослідники створили надійний детектор на основі розмірів, який був стійкий до звичайних методів ухилення.

Точність детектора залишалася незмінно високою при зміні доменів і моделей із фіксованим порогом і падінням точності на 40% при перевірці методом DIPPER.

Дослідники досліджували область тексту, створеного ШІ розробив метод виявлення контенту, створеного ШІ такі моделі, як GPT та Llama. Вони виявили цікаві ідеї про природу створеного тексту, використовуючи концепцію дробової розмірності. Їхні висновки проливають світло на суттєві відмінності між текстом, написаним людьми, і текстом, створеним моделями ШІ.

Дослідники відкривають новий спосіб виявлення тексту, створеного ШІ
Кредит: Metaverse Post (mpost.io)
Читайте: 100+ найкращих слів, які виявляються детекторами ШІ

Чи може розмірність хмари точок, отримана з тексту природної мови, надати корисну інформацію про її походження? Дослідники використовували модель RoBERTa, щоб витягти вбудовані текстові маркери та візуалізувати їх як точки в багатовимірному просторі, щоб дослідити це. Вони оцінили дробовий розмір цих хмар точок, використовуючи складні методи, натхненні попередніми роботами.

Дослідники були вражені, виявивши цей текст, створений GPT-3.5 моделі, наприклад ChatGPT і Давінчі, мали значно нижчі середні розміри, ніж текст, написаний людиною. Ця інтригуюча модель зберігалася в усіх доменах і навіть тоді, коли альтернативні моделі, такі як GPT-2 або OPT. Примітно, що навіть при використанні парафразу DIPPER, який спеціально розроблений, щоб уникнути виявлення, розмірність змінилася лише приблизно на 3%. Ці відкриття дозволили дослідникам створити надійний детектор на основі розмірів, стійкий до звичайних методів ухилення.

Примітно, що точність детектора залишалася незмінно високою після зміни доменів і моделей. З фіксованим порогом точність виявлення (частота справжніх позитивних результатів) залишалася вище 75%, тоді як частота помилкових позитивних результатів (FPR) залишалася меншою за 1%. Навіть коли система виявлення була протестована за допомогою техніки DIPPER, точність впала до 40%, перевершуючи існуючі детектори, в тому числі розроблені OpenAI.

Крім того, дослідники досліджували застосування багатомовних моделей, таких як багатомовний RoBERTa. Це дозволило їм розробити подібні детектори для інших мов, крім англійської. У той час як середній внутрішній розмір вкладень різнився в різних мовах, розмір створених текстів залишався незмінно нижчим, ніж текст, написаний людиною, для кожної конкретної мови.

Однак детектор виявив деякі слабкі сторони, особливо при роботі з високими температурами генерації та примітивністю моделі генераторів. При вищих температурах внутрішній розмір згенерованого тексту може перевищувати розмір тексту, написаного людиною, що робить детектор неефективним. На щастя, такі моделі генераторів вже можна виявити альтернативними методами. Крім того, дослідники визнали, що є простір для вивчення альтернативних моделей вилучення вбудованих текстів поза RoBERTa.

Розрізнення між написаним людиною текстом і текстом, написаним штучним інтелектом

У січні OpenAI оголошений запуск нового класифікатора, призначеного для розрізнення тексту, написаного людьми, від тексту, створеного системами ШІ. Цей класифікатор спрямований на вирішення проблем, пов’язаних із зростанням поширення контенту, створеного штучним інтелектом, як-от кампанії дезінформації та академічна нечесність.

Хоча виявлення всього тексту, написаного штучним інтелектом, є складним завданням, цей класифікатор служить цінним інструментом для пом’якшення помилкових заяв про авторство людини в тексті, створеному ШІ. Завдяки ретельній оцінці набору текстів англійською мовою розробники виявили, що цей класифікатор точно ідентифікує 26% тексту, написаного штучним інтелектом, як «імовірно написаний штучним інтелектом» (справжні позитиви), в той час як час від часу неправильно позначає текст, написаний людиною, як створений штучним інтелектом (хибний). позитивних) на 9%. Важливо відзначити, що надійність класифікатора підвищується зі збільшенням довжини вхідного тексту. Порівняно з попередніми класифікаторами, ця нова версія демонструє значно вищу надійність тексту, створеного новішими системами ШІ.

Щоб зібрати цінні відгуки про корисність недосконалих інструментів, таких як цей класифікатор, розробники створили його загальнодоступні. Ви можете безкоштовно спробувати наш незавершений класифікатор. Однак важливо розуміти його обмеження. Класифікатор слід використовувати як додатковий інструмент, а не як основний ресурс для прийняття рішень для визначення джерела тексту. Він демонструє високу ненадійність щодо коротких текстів, і є випадки, коли текст, написаний людиною, може бути неправильно позначений як створений ШІ.

Варто зазначити, що тексти з високим ступенем прогнозування не можуть бути ідентифіковані послідовно, наприклад, список перших 1,000 простих чисел. Редагування створеного штучним інтелектом тексту також може допомогти уникнути класифікатора, і хоча ми можемо оновити та перенавчити класифікатор на основі успішних атак, довгострокова перевага виявлення залишається невизначеною. Крім того, класифікатори на основі нейронні мережі часто погано відкалібровані поза їхніми навчальними даними, що призводить до надзвичайної впевненості в неправильних прогнозах для вхідних даних, які значно відрізняються від навчального набору.

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Orbiter Finance співпрацює з мережею Zulu Bitcoin рівня 2 і розгортає її в тестовій мережі Lwazi
Business Звіт про новини Технологія
Orbiter Finance співпрацює з мережею Zulu Bitcoin рівня 2 і розгортає її в тестовій мережі Lwazi 
Травень 7, 2024
Криптобіржа Bybit інтегрує USDe Ethena Labs як заставний актив, уможливлює торгівлю парами BTC-USDe та ETH-USDe
ринки Звіт про новини Технологія
Криптобіржа Bybit інтегрує USDe Ethena Labs як заставний актив, уможливлює торгівлю парами BTC-USDe та ETH-USDe
Травень 7, 2024
Bitget Wallet представляє GetDrop Airdrop Платформа та запускає першу подію Meme Coin із призовим фондом у 130,000 XNUMX доларів США
ринки Звіт про новини Технологія
Bitget Wallet представляє GetDrop Airdrop Платформа та запускає першу подію Meme Coin із призовим фондом у 130,000 XNUMX доларів США
Травень 7, 2024
Від простого рефлексу до агентів навчання: ознайомтеся з різними типами агентів ШІ та їх ролями в сучасних програмах
Стиль життя Софтвер Розповіді та огляди Технологія
Від простого рефлексу до агентів навчання: ознайомтеся з різними типами агентів ШІ та їх ролями в сучасних програмах
Травень 7, 2024
CRYPTOMERIA LABS PTE. LTD.