뉴스 보도 Technology
2023년 6월 28일

연구원들은 AI 생성 텍스트를 감지하는 새로운 방법을 발견했습니다.

요컨대

연구원들은 텍스트 토큰의 임베딩을 추출하고 이를 다차원 공간의 점으로 시각화하는 RoBERTa 모델을 사용하여 AI 생성 텍스트를 감지하는 방법을 개발했습니다.

그들은 다음에 의해 생성된 텍스트를 발견했습니다. GPT-3.5 모델 등 ChatGPT Davinci는 사람이 쓴 텍스트보다 평균 크기가 훨씬 낮았습니다.

연구원들은 일반적인 회피 기술에 저항력이 있는 견고한 차원 기반 탐지기를 만들었습니다.

탐지기의 정확도는 영역과 모델이 변경될 때 지속적으로 높게 유지되었으며 고정 임계값과 DIPPER 기술로 도전할 때 정확도가 40% 떨어졌습니다.

연구자들은 AI로 생성된 텍스트 분야를 조사하고 AI가 생성한 콘텐츠를 감지하는 방법을 개발했습니다. 다음과 같은 모델 GPT 및 Llama. 그들은 분수 차원의 개념을 활용하여 생성된 텍스트의 특성에 대한 흥미로운 통찰력을 발견했습니다. 그들의 연구 결과는 인간이 쓴 텍스트와 AI 모델이 생성한 텍스트 사이의 본질적인 차이점을 밝혔습니다.

연구원들은 AI 생성 텍스트를 감지하는 새로운 방법을 발견했습니다.
신용 : Metaverse Post (mpost.io)
읽기 : AI 감지기로 감지할 수 있는 상위 100개 이상의 단어

자연어 텍스트에서 파생된 포인트 클라우드의 차원이 해당 원점에 대한 유용한 정보를 제공할 수 있습니까? 연구원들은 이를 조사하기 위해 RoBERTa 모델을 사용하여 텍스트 토큰의 임베딩을 추출하고 이를 다차원 공간의 점으로 시각화했습니다. 그들은 이전 작업에서 영감을 얻은 정교한 기술을 사용하여 이러한 포인트 클라우드의 분수 치수를 추정했습니다.

연구자들은 다음에 의해 생성된 텍스트를 발견하고 놀랐습니다. GPT-3.5 모델 등 ChatGPT Davinci는 사람이 쓴 텍스트보다 평균 크기가 훨씬 낮았습니다. 이 흥미로운 패턴은 도메인 전반에 걸쳐 지속되었으며 다음과 같은 대체 모델에서도 지속되었습니다. GPT-2 또는 OPT가 사용되었습니다. 특히 감지를 피하기 위해 특별히 설계된 DIPPER 의역을 사용하더라도 치수는 약 3%만 변경되었습니다. 이러한 발견을 통해 연구원들은 일반적인 회피 기술에 저항하는 강력한 차원 기반 탐지기를 만들 수 있었습니다.

특히 도메인과 모델이 변경될 때 감지기의 정확도가 지속적으로 높게 유지되었습니다. 고정 임계값을 사용하면 탐지 정확도(진양성률)가 75% 이상을 유지한 반면 거짓양성률(FPR)은 1% 미만으로 유지되었습니다. DIPPER 기술로 탐지 시스템에 도전했을 때도 정확도가 40%로 떨어졌으며, OpenAI.

또한 연구원들은 다국어 RoBERTa와 같은 다국어 모델의 적용을 탐구했습니다. 이를 통해 영어 이외의 언어에 대해 유사한 탐지기를 개발할 수 있었습니다. 임베딩의 평균 내부 차원은 언어마다 다르지만 생성된 텍스트의 차원은 각 특정 언어에 대해 사람이 작성한 텍스트보다 지속적으로 낮았습니다.

그러나, 검출기는 특히 높은 생성 온도와 프리미티브에 직면할 때 몇 가지 약점을 보였습니다. 발전기 모델. 더 높은 온도에서 생성된 텍스트의 내부 치수는 사람이 쓴 텍스트의 내부 치수를 능가하여 감지기를 비효율적으로 만들 수 있습니다. 다행히 이러한 생성기 모델은 대체 방법을 사용하여 이미 감지할 수 있습니다. 또한 연구원들은 RoBERTa 이외의 텍스트 임베딩을 추출하기 위한 대체 모델을 탐색할 여지가 있음을 인정했습니다.

인간과 AI가 쓴 텍스트의 구별

1 월, OpenAI 발표 인간이 쓴 텍스트와 AI 시스템이 생성한 텍스트를 구별하도록 설계된 새로운 분류기 출시 이 분류기는 잘못된 정보 캠페인 및 학문적 부정직과 같은 AI 생성 콘텐츠의 보급 증가로 인해 제기되는 문제를 해결하는 것을 목표로 합니다.

AI가 작성한 모든 텍스트를 탐지하는 것은 복잡한 작업이지만, 이 분류기는 잘못된 주장을 완화하는 귀중한 도구 역할을 합니다. AI가 생성한 텍스트의 인간 저작물. 개발자들은 일련의 영어 텍스트에 대한 엄격한 평가를 통해 해당 분류자가 AI로 작성된 텍스트의 26%를 "AI로 작성된 가능성이 있는"(참 긍정) 것으로 정확하게 식별하는 동시에 때로는 사람이 작성한 텍스트를 AI 생성(거짓)으로 잘못 표시한다는 사실을 발견했습니다. 긍정적) 9%. 입력 텍스트의 길이가 길어질수록 분류기의 신뢰성이 향상된다는 점에 유의하는 것이 중요합니다. 이전 분류기에 비해 이 새 버전은 최신 AI 시스템에서 생성된 텍스트에 대해 훨씬 더 높은 신뢰성을 보여줍니다.

이 분류기와 같은 불완전한 도구의 유용성에 대한 귀중한 피드백을 수집하기 위해 개발자는 공개적으로 이용 가능한. 진행 중인 분류기를 무료로 사용해 볼 수 있습니다. 그러나 그 한계를 이해하는 것이 중요합니다. 분류기는 텍스트의 출처를 결정하기 위한 기본 의사 결정 리소스가 아닌 보조 도구로 사용해야 합니다. 짧은 텍스트에 대해 높은 신뢰도를 나타내지 않으며 사람이 쓴 텍스트가 AI 생성으로 잘못 표시될 수 있는 경우가 있습니다.

처음 1,000개의 소수 목록과 같이 고도로 예측 가능한 텍스트를 일관되게 식별할 수 없다는 점은 주목할 가치가 있습니다. AI 생성 텍스트를 편집하면 분류자를 회피하는 데 도움이 될 수 있으며 성공적인 공격을 기반으로 분류자를 업데이트하고 재훈련할 수 있지만 탐지의 장기적인 이점은 여전히 ​​불확실합니다. 또한 다음을 기반으로 한 분류기 신경망 종종 훈련 데이터 외부에서 제대로 보정되지 않아 훈련 세트와 크게 다른 입력에 대한 잘못된 예측에 대해 극도의 확신을 갖게 됩니다.

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
뉴스 보도 Technology
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
2024 년 5 월 8 일
2024년 7월의 새로운 Meme 코인: 암호화폐 팬을 위한 XNUMX가지 추천
요람 시장 Technology
2024년 7월의 새로운 Meme 코인: 암호화폐 팬을 위한 XNUMX가지 추천
2024 년 5 월 8 일
Synternet은 Peaq를 데이터 계층에 통합하여 실시간 DePIN 데이터로 이벤트 기반 DApp을 구동합니다.
근무지에서 발생 뉴스 보도 Technology
Synternet은 Peaq를 데이터 계층에 통합하여 실시간 DePIN 데이터로 이벤트 기반 DApp을 구동합니다.
2024 년 5 월 8 일
이란의 대규모 암호화폐 채굴 작업이 미국 국가 안보에 직접적인 위협을 가하고 있으며, 상원의원들은 즉각적인 정부 조치를 촉구합니다.
시장 이야기와 리뷰 Technology
이란의 대규모 암호화폐 채굴 작업이 미국 국가 안보에 직접적인 위협을 가하고 있으며, 상원의원들은 즉각적인 정부 조치를 촉구합니다.
2024 년 5 월 8 일
CRYPTOMERIA LABS PTE. LTD.