Η αδημοσίευτη μελέτη κινδύνου τεχνητής νοημοσύνης του NIST παραμένει στο ράφι εν μέσω διοικητικών αλλαγών
Εν συντομία
Μια άσκηση συνεργασίας Red Teams, υπό την ηγεσία του NIST, στο CAMLIS, αξιολόγησε τα τρωτά σημεία σε προηγμένα συστήματα Τεχνητής Νοημοσύνης, αξιολογώντας κινδύνους όπως η παραπληροφόρηση, οι διαρροές δεδομένων και η συναισθηματική χειραγώγηση.
The Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας (NIST) ολοκλήρωσε μια έκθεση σχετικά με την ασφάλεια των προηγμένων μοντέλων τεχνητής νοημοσύνης προς το τέλος της κυβέρνησης Τζο Μπάιντεν, αλλά το έγγραφο δεν δημοσιεύθηκε μετά τη μετάβαση στην κυβέρνηση Ντόναλντ Τραμπ.
Τον Οκτώβριο του περασμένου έτους, ένα συνέδριο για την ασφάλεια υπολογιστών στο Άρλινγκτον της Βιρτζίνια συγκέντρωσε μια ομάδα ερευνητών Τεχνητής Νοημοσύνης που συμμετείχαν σε μια πρωτοποριακή άσκηση «κόκκινης ομαδοποίησης» με στόχο την αυστηρή δοκιμή ενός υπερσύγχρονου γλωσσικού μοντέλου και άλλων συστημάτων Τεχνητής Νοημοσύνης. Σε διάστημα δύο ημερών, αυτές οι ομάδες ανακάλυψαν 139 νέες μεθόδους για να προκαλέσουν δυσλειτουργία των συστημάτων, όπως η παραγωγή ψευδών πληροφοριών ή η έκθεση ευαίσθητων δεδομένων. Το κρίσιμο σημείο είναι ότι τα ευρήματά τους αποκάλυψαν επίσης αδυναμίες σε ένα πρόσφατο πρότυπο της κυβέρνησης των ΗΠΑ που αποσκοπούσε στην καθοδήγηση των εταιρειών στην αξιολόγηση της ασφάλειας των συστημάτων Τεχνητής Νοημοσύνης.
Παρόλο που η έκθεση σχεδιάστηκε για να βοηθήσει τους οργανισμούς στην αξιολόγηση των συστημάτων τεχνητής νοημοσύνης τους, ήταν μεταξύ πολλών εγγράφων τεχνητής νοημοσύνης που έχουν συνταχθεί από το NIST και τα οποία δεν δημοσιοποιήθηκαν λόγω πιθανών συγκρούσεων με την πολιτική κατεύθυνση της νέας κυβέρνησης.
Πριν αναλάβει τα καθήκοντά του, ο Πρόεδρος Ντόναλντ Τραμπ είχε δηλώσει την πρόθεσή του να ανακαλέσει τα εκτελεστικά διατάγματα της εποχής Μπάιντεν που σχετίζονται με την Τεχνητή Νοημοσύνη. Από τη μετάβαση στην εξουσία, η κυβέρνηση έχει ανακατευθύνει την προσοχή των ειδικών μακριά από τομείς όπως η αλγοριθμική προκατάληψη και η δικαιοσύνη στην Τεχνητή Νοημοσύνη. Το Σχέδιο Δράσης για την Τεχνητή Νοημοσύνη που δημοσιεύθηκε τον Ιούλιο ζητά συγκεκριμένα αναθεωρήσεις του Πλαισίου Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης του NIST, συνιστώντας την αφαίρεση αναφορών στην παραπληροφόρηση, την Ποικιλομορφία, την Ισότητα και την Ένταξη (DEI) και την κλιματική αλλαγή.
Ταυτόχρονα, το Σχέδιο Δράσης για την Τεχνητή Νοημοσύνη περιλαμβάνει μια πρόταση που μοιάζει με τους στόχους της αδημοσίευτης έκθεσης. Κατευθύνει πολλές ομοσπονδιακές υπηρεσίες, συμπεριλαμβανομένου του NIST, να οργανώσουν μια συντονισμένη πρωτοβουλία hackathon τεχνητής νοημοσύνης με στόχο τη δοκιμή συστημάτων τεχνητής νοημοσύνης για διαφάνεια, λειτουργικότητα, έλεγχο χρηστών και πιθανά τρωτά σημεία ασφαλείας.
Άσκηση Red Teaming υπό την ηγεσία του NIST διερευνά τους κινδύνους του συστήματος τεχνητής νοημοσύνης χρησιμοποιώντας το πλαίσιο ARIA στο συνέδριο CAMLIS
Η άσκηση συνεργασίας διεξήχθη στο πλαίσιο του προγράμματος Αξιολόγησης Κινδύνων και Επιπτώσεων της Τεχνητής Νοημοσύνης (ARIA) από το NIST, σε συνεργασία με την Humane Intelligence, μια εταιρεία που επικεντρώνεται στην αξιολόγηση συστημάτων Τεχνητής Νοημοσύνης. Αυτή η πρωτοβουλία πραγματοποιήθηκε κατά τη διάρκεια του Συνεδρίου για την Εφαρμοσμένη Μηχανική Μάθηση στην Ασφάλεια Πληροφοριών (CAMLIS), όπου οι συμμετέχοντες διερεύνησαν τα τρωτά σημεία μιας σειράς προηγμένων τεχνολογιών Τεχνητής Νοημοσύνης.
Η έκθεση CAMLIS Red Teaming καταγράφει την αξιολόγηση διαφόρων εργαλείων Τεχνητής Νοημοσύνης, συμπεριλαμβανομένου του Meta's. Llama, ένα μοντέλο μεγάλης γλώσσας ανοιχτού κώδικα (LLM)· η Anote, μια πλατφόρμα για την ανάπτυξη και βελτίωση μοντέλων τεχνητής νοημοσύνης· ένα σύστημα ασφαλείας από την Robust Intelligence, το οποίο έκτοτε έχει αποκτηθεί από την CISCO· και η πλατφόρμα δημιουργίας avatar τεχνητής νοημοσύνης της Synthesia. Εκπρόσωποι από κάθε οργανισμό συνέβαλαν στις δραστηριότητες red-teaming.
Οι συμμετέχοντες χρησιμοποίησαν το πλαίσιο NIST AI 600-1 για να αναλύσουν τα εν λόγω εργαλεία. Αυτό το πλαίσιο περιγράφει πολλαπλούς τομείς κινδύνου, όπως η πιθανότητα η Τεχνητή Νοημοσύνη να παράγει ψευδείς πληροφορίες ή απειλές στον κυβερνοχώρο, να αποκαλύπτει ιδιωτικά ή ευαίσθητα δεδομένα ή να ενισχύει συναισθηματική εξάρτηση μεταξύ των χρηστών και των συστημάτων Τεχνητής Νοημοσύνης.
Αδημοσίευτη έκθεση για την AI Red Teaming αποκαλύπτει ευπάθειες μοντέλων, προκαλεί ανησυχίες για πολιτική καταστολή και χαμένες ερευνητικές πληροφορίες
Η ερευνητική ομάδα βρήκε αρκετές μεθόδους για την παράκαμψη των προβλεπόμενων διασφαλίσεων των υπό αξιολόγηση εργαλείων, οδηγώντας σε αποτελέσματα που περιελάμβαναν παραπληροφόρηση, αποκάλυψη ιδιωτικών πληροφοριών και βοήθεια στη διαμόρφωση στρατηγικών κυβερνοεπιθέσεων. Σύμφωνα με την έκθεση, ορισμένες πτυχές του πλαισίου NIST αποδείχθηκαν πιο εφαρμόσιμες από άλλες. Σημειώθηκε επίσης ότι ορισμένες κατηγορίες κινδύνου δεν είχαν την απαραίτητη σαφήνεια για πρακτική χρήση.
Άτομα που είναι εξοικειωμένα με την πρωτοβουλία red-teaming εξέφρασαν την άποψη ότι τα ευρήματα της άσκησης θα μπορούσαν να έχουν προσφέρει πολύτιμες γνώσεις στην ευρύτερη κοινότητα έρευνας και ανάπτυξης της Τεχνητής Νοημοσύνης. Μία συμμετέχουσα, η Alice Qian Zhang, υποψήφια διδάκτορας στο Πανεπιστήμιο Carnegie Mellon, σημείωσε ότι η δημόσια κοινοποίηση της έκθεσης θα μπορούσε να βοηθήσει στην αποσαφήνιση του τρόπου λειτουργίας του πλαισίου κινδύνου NIST όταν εφαρμόζεται σε πραγματικά περιβάλλοντα δοκιμών. Τόνισε επίσης ότι η άμεση αλληλεπίδραση με τους προγραμματιστές των εργαλείων κατά τη διάρκεια της αξιολόγησης πρόσθεσε αξία στην εμπειρία.
Ένας άλλος συνεργάτης, ο οποίος επέλεξε να παραμείνει ανώνυμος, ανέφερε ότι η άσκηση αποκάλυψε συγκεκριμένες τεχνικές προτροπής —χρησιμοποιώντας γλώσσες όπως τα Ρωσικά, τα Γκουτζαράτι, τα Μαράθι και τα Τελούγκου— που ήταν ιδιαίτερα επιτυχημένες στην εξαγωγή απαγορευμένων αποτελεσμάτων από μοντέλα όπως Llama, συμπεριλαμβανομένων οδηγιών σχετικά με την ένταξη σε εξτρεμιστικές ομάδες. Αυτό το άτομο υποστήριξε ότι η απόφαση να μην δημοσιοποιηθεί η έκθεση μπορεί να αντικατοπτρίζει μια ευρύτερη μετατόπιση από τομείς που θεωρούνται ότι συνδέονται με την ποικιλομορφία, την ισότητα και την ένταξη ενόψει της νέας κυβέρνησης.
Ορισμένοι συμμετέχοντες εξέφρασαν την εικασία ότι η παράλειψη της έκθεσης μπορεί επίσης να οφείλεται στην αυξημένη κυβερνητική εστίαση σε κινδύνους υψηλού ρίσκου —όπως η πιθανή χρήση συστημάτων τεχνητής νοημοσύνης στην ανάπτυξη όπλων μαζικής καταστροφής— και σε μια παράλληλη προσπάθεια ενίσχυσης των δεσμών με μεγάλες εταιρείες τεχνολογίας. Ένας συμμετέχων της κόκκινης ομάδας σχολίασε ανώνυμα ότι οι πολιτικές παραμέτρους πιθανότατα έπαιξαν ρόλο στην απόκρυψη της έκθεσης και ότι η άσκηση περιείχε πληροφορίες συνεχιζόμενης επιστημονικής σημασίας.
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.
Περισσότερα άρθρα
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.