Ιούνιος 21, 2023

Ερευνητές ανακαλύπτουν έναν νέο τρόπο ανίχνευσης κειμένου που δημιουργείται από AI

Δημοσιεύθηκε: 21 Ιουνίου 2023 στις 1:33 π.μ. Ενημερώθηκε: 21 Μαρτίου 2024 στις 11:43 π.μ.

Επεξεργάστηκε και επαληθεύτηκε: 21 Ιουνίου 2023 στις 1:33 π.μ.

Εν συντομία

Οι ερευνητές ανέπτυξαν μια μέθοδο για την ανίχνευση κειμένου που δημιουργείται από AI χρησιμοποιώντας το μοντέλο RoBERTa, το οποίο εξάγει ενσωματώσεις διακριτικών κειμένου και τα απεικονίζει ως σημεία σε έναν πολυδιάστατο χώρο.

Ανακάλυψαν αυτό το κείμενο που δημιουργήθηκε από GPT-3.5 μοντέλα, όπως π.χ ChatGPT και Davinci, είχαν σημαντικά χαμηλότερες μέσες διαστάσεις από το ανθρώπινο κείμενο.

Οι ερευνητές δημιούργησαν έναν ισχυρό ανιχνευτή με βάση τις διαστάσεις που ήταν ανθεκτικός στις κοινές τεχνικές αποφυγής.

Η ακρίβεια του ανιχνευτή παρέμεινε σταθερά υψηλή όταν άλλαξαν τομείς και μοντέλα, με σταθερό όριο και πτώση ακρίβειας 40% όταν αμφισβητήθηκε με την τεχνική DIPPER.

Οι ερευνητές έχουν διερευνήσει το πεδίο του κειμένου που δημιουργείται από την τεχνητή νοημοσύνη και ανέπτυξε μια μέθοδο για την ανίχνευση περιεχομένου που δημιουργείται από AI μοντέλα όπως GPT και Llama. Ανακάλυψαν ενδιαφέρουσες ιδέες για τη φύση του παραγόμενου κειμένου χρησιμοποιώντας την έννοια της κλασματικής διάστασης. Τα ευρήματά τους ρίχνουν φως στις εγγενείς διαφορές μεταξύ κειμένου που γράφτηκε από ανθρώπους και κειμένου που δημιουργείται από μοντέλα AI.

Ερευνητές ανακαλύπτουν έναν νέο τρόπο ανίχνευσης κειμένου που δημιουργείται από AI — πίστωσης: Metaverse Post (mpost.io)

Διαβάστε: Κορυφαίες 100+ λέξεις που ανιχνεύονται από AI Detectors

Μπορεί η διάσταση ενός νέφους σημείου που προέρχεται από κείμενο φυσικής γλώσσας να παρέχει χρήσιμες πληροφορίες για την προέλευσή του; Οι ερευνητές χρησιμοποίησαν το μοντέλο RoBERTa για να εξαγάγουν ενσωματώσεις διακριτικών κειμένου και να τις οπτικοποιήσουν ως σημεία σε έναν πολυδιάστατο χώρο για να το διερευνήσουν. Εκτίμησαν την κλασματική διάσταση αυτών των σημειακών νεφών χρησιμοποιώντας εξελιγμένες τεχνικές εμπνευσμένες από προηγούμενα έργα.

Οι ερευνητές έμειναν έκπληκτοι όταν ανακάλυψαν αυτό το κείμενο που δημιουργήθηκε από GPT-3.5 μοντέλα, όπως π.χ ChatGPT και Davinci, είχαν σημαντικά χαμηλότερες μέσες διαστάσεις από το ανθρώπινο κείμενο. Αυτό το ενδιαφέρον μοτίβο παρέμεινε σε όλους τους τομείς και ακόμη και όταν εναλλακτικά μοντέλα όπως π.χ GPT-2 ή OPT χρησιμοποιήθηκαν. Αξίζει να σημειωθεί ότι ακόμη και όταν χρησιμοποιείται η παράφραση DIPPER, η οποία έχει σχεδιαστεί ειδικά για να αποφεύγεται ο εντοπισμός, η διάσταση άλλαξε μόνο κατά περίπου 3%. Αυτές οι ανακαλύψεις επέτρεψαν στους ερευνητές να δημιουργήσουν έναν ισχυρό ανιχνευτή με βάση τις διαστάσεις που είναι ανθεκτικός στις κοινές τεχνικές αποφυγής.

Συγκεκριμένα, η ακρίβεια του ανιχνευτή παρέμεινε σταθερά υψηλή όταν άλλαζαν τομείς και μοντέλα. Με ένα σταθερό όριο, η ακρίβεια ανίχνευσης (πραγματικό θετικό ποσοστό) παρέμεινε πάνω από 75% ενώ το ποσοστό ψευδώς θετικού (FPR) παρέμεινε μικρότερο από 1%. Ακόμη και όταν το σύστημα ανίχνευσης αμφισβητήθηκε με την τεχνική DIPPER, η ακρίβεια έπεσε στο 40%, ξεπερνώντας τους υπάρχοντες ανιχνευτές, συμπεριλαμβανομένων εκείνων που αναπτύχθηκαν από OpenAI.

Επιπλέον, οι ερευνητές διερεύνησαν την εφαρμογή πολύγλωσσων μοντέλων όπως το πολύγλωσσο RoBERTa. Αυτό τους επέτρεψε να αναπτύξουν παρόμοιους ανιχνευτές για άλλες γλώσσες εκτός από τα αγγλικά. Ενώ η μέση εσωτερική διάσταση των ενσωματώσεων διέφερε μεταξύ διαφορετικών γλωσσών, η διάσταση των δημιουργηθέντων κειμένων παρέμενε σταθερά χαμηλότερη από αυτή του ανθρώπινου κειμένου για κάθε συγκεκριμένη γλώσσα.

Ωστόσο, ο ανιχνευτής παρουσίασε κάποιες αδυναμίες, ιδιαίτερα όταν αντιμετωπίζει θερμοκρασίες υψηλής γενιάς και πρωτόγονες μοντέλα γεννητριών. Σε υψηλότερες θερμοκρασίες, η εσωτερική διάσταση των κειμένων που δημιουργούνται θα μπορούσε να ξεπεράσει αυτή του ανθρώπινου γραπτού κειμένου, καθιστώντας τον ανιχνευτή αναποτελεσματικό. Ευτυχώς, τέτοια μοντέλα γεννητριών είναι ήδη ανιχνεύσιμα χρησιμοποιώντας εναλλακτικές μεθόδους. Επιπλέον, οι ερευνητές αναγνώρισαν ότι υπάρχει χώρος για διερεύνηση εναλλακτικών μοντέλων για την εξαγωγή ενσωματώσεων κειμένου πέρα από το RoBERTa.

Διαφοροποίηση μεταξύ ανθρώπινου και γραπτού κειμένου με τεχνητή νοημοσύνη

Τον Ιανουάριο, OpenAI ανακοίνωσε η κυκλοφορία ενός νέου ταξινομητή που έχει σχεδιαστεί για τη διάκριση μεταξύ κειμένου που γράφτηκε από ανθρώπους και κειμένου που δημιουργείται από συστήματα τεχνητής νοημοσύνης. Αυτός ο ταξινομητής στοχεύει να αντιμετωπίσει τις προκλήσεις που θέτει η αυξανόμενη επικράτηση περιεχομένου που δημιουργείται από την τεχνητή νοημοσύνη, όπως εκστρατείες παραπληροφόρησης και ακαδημαϊκή ανεντιμότητα.

Ενώ η ανίχνευση όλου του γραπτού κειμένου με τεχνητή νοημοσύνη είναι μια περίπλοκη εργασία, αυτός ο ταξινομητής χρησιμεύει ως πολύτιμο εργαλείο για τον μετριασμό ψευδών ισχυρισμών ανθρώπινη συγγραφή σε κείμενο που δημιουργείται από AI. Μέσω αυστηρών αξιολογήσεων σε ένα σύνολο αγγλικών κειμένων, οι προγραμματιστές ανακάλυψαν ότι αυτός ο ταξινομητής προσδιορίζει με ακρίβεια το 26% του γραπτού κειμένου με τεχνητή νοημοσύνη ως «πιθανώς γραμμένο με τεχνητή νοημοσύνη» (αληθινά θετικά), ενώ περιστασιακά χαρακτηρίζει εσφαλμένα το κείμενο που έχει γραφτεί από τον άνθρωπο ως δημιουργημένο από AI (false θετικά) κατά 9%. Είναι σημαντικό να σημειωθεί ότι η αξιοπιστία του ταξινομητή βελτιώνεται καθώς αυξάνεται το μήκος του κειμένου εισαγωγής. Σε σύγκριση με προηγούμενους ταξινομητές, αυτή η νέα έκδοση επιδεικνύει σημαντικά υψηλότερη αξιοπιστία σε κείμενο που δημιουργείται από πιο πρόσφατα συστήματα AI.

Για να συγκεντρώσουν πολύτιμα σχόλια σχετικά με τη χρησιμότητα ατελών εργαλείων όπως αυτός ο ταξινομητής, οι προγραμματιστές το έφτιαξαν δημόσια διαθέσιμο. Μπορείτε να δοκιμάσετε δωρεάν τον ταξινομητή μας σε εξέλιξη. Ωστόσο, είναι απαραίτητο να κατανοήσουμε τους περιορισμούς του. Ο ταξινομητής θα πρέπει να χρησιμοποιείται ως συμπληρωματικό εργαλείο, αντί ως πρωταρχικός πόρος λήψης αποφάσεων, για τον προσδιορισμό της πηγής ενός κειμένου. Παρουσιάζει υψηλή αναξιοπιστία σε σύντομα κείμενα και υπάρχουν περιπτώσεις όπου το κείμενο που έχει γραφτεί από ανθρώπους μπορεί να χαρακτηριστεί εσφαλμένα ως δημιουργημένο από AI.

Αξίζει να σημειωθεί ότι τα εξαιρετικά προβλέψιμα κείμενα δεν μπορούν να εντοπιστούν με συνέπεια, όπως μια λίστα με τους πρώτους 1,000 πρώτους αριθμούς. Η επεξεργασία κειμένου που δημιουργείται από την τεχνητή νοημοσύνη μπορεί επίσης να βοηθήσει στην αποφυγή του ταξινομητή και, ενώ μπορούμε να ενημερώσουμε και να εκπαιδεύσουμε εκ νέου τον ταξινομητή βάσει επιτυχημένων επιθέσεων, το μακροπρόθεσμο πλεονέκτημα της ανίχνευσης παραμένει αβέβαιο. Επιπλέον, ταξινομητές με βάση νευρωνικά δίκτυα είναι συχνά ανεπαρκώς βαθμονομημένα εκτός των δεδομένων προπόνησής τους, οδηγώντας σε εξαιρετική εμπιστοσύνη σε λανθασμένες προβλέψεις για εισροές που διαφέρουν σημαντικά από το σύνολο εκπαίδευσης.

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ

Hot Stories

Το Lisk μεταβαίνει επίσημα στο Ethereum Layer 2 και αποκαλύπτει τον Core v4.0.6

by Άλισα Ντέιβιντσον

08 Μαΐου 2024

Νέα Meme Coins Μαΐου 2024: 7 επιλογές για θαυμαστές κρυπτογράφησης

by Βανκτόρια palchik

08 Μαΐου 2024

Το Synternet ενσωματώνει το Peaq στο επίπεδο δεδομένων του για να τροφοδοτήσει DApps που βασίζονται σε συμβάντα με δεδομένα DePIN σε πραγματικό χρόνο

by Άλισα Ντέιβιντσον

08 Μαΐου 2024

Οι μαζικές επιχειρήσεις εξόρυξης κρυπτογράφησης του Ιράν αποτελούν άμεση απειλή για την εθνική ασφάλεια των ΗΠΑ, οι γερουσιαστές ζητούν άμεση δράση από την κυβέρνηση

by Βανκτόρια palchik

08 Μαΐου 2024

Τελευταια νεα

Το Lisk μεταβαίνει επίσημα στο Ethereum Layer 2 και αποκαλύπτει τον Core v4.0.6

by Άλισα Ντέιβιντσον

08 Μαΐου 2024

Νέα Meme Coins Μαΐου 2024: 7 επιλογές για θαυμαστές κρυπτογράφησης

by Βανκτόρια palchik

08 Μαΐου 2024

Το Synternet ενσωματώνει το Peaq στο επίπεδο δεδομένων του για να τροφοδοτήσει DApps που βασίζονται σε συμβάντα με δεδομένα DePIN σε πραγματικό χρόνο

by Άλισα Ντέιβιντσον

08 Μαΐου 2024

Zeta Markets Initiates Community Airdrop, Κατανέμει το 1% της προμήθειας Z Token στις Κοινότητες Solana

by Άλισα Ντέιβιντσον

08 Μαΐου 2024

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα