Haber Raporu Teknoloji
04 Ekim 2023

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Alanın farklı köşelerinden 20'den fazla araştırmacının katıldığı ortak bir çaba, gelişen bir alanın doğmasına neden oldu: temsil mühendisliği (RepE). Bu, türünün ilk araştırması olmasa da, yazarlar hem tanımlayıcı görüşler sunuyor hem de önemli ölçütler oluşturuyor.

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Peki temsil mühendisliği tam olarak nedir? Sinir ağlarının, adlarına rağmen gizlilikle örtülmeyen "gizli durumlara" sahip olduğu fikri etrafında dönüyor. Bu durumlar erişilebilir, değiştirilebilir ve gözlemlenebilirdir (modelin ağırlıklarına erişilebilmesi şartıyla). Parametrelerden farklı olarak bunlar, özellikle aşağıdaki durumlarda ağın belirli girdilere verdiği “tepkilerdir”. LLM'ler, metin girişleri. Bu gizli temsiller, modelin bilişsel işleyişine açılan pencereler gibidir; bu, insan beyninden belirgin biçimde farklı bir özelliktir.

Bilişsel bilimle paralellikler kuran yazarlar, benzer araştırmaların potansiyelini vurguluyor. Beyin nöronlarına benzer bir alan olan sinirsel aktivasyonlar alanında anlam vaadi bulunmaktadır. İnsan beynindeki belirli nöronların Kanada veya dürüstlük gibi kavramlarla bağlantılı olması gibi, bu aktivasyonlar da içgörü barındırabilir.

Buradaki ana fikir, modeli istenen yöne yönlendirmek için bu sinirsel aktivasyonları nasıl etkileyebileceğimizin şifresini çözmektir. Örneğin, "dürüstlüğü" temsil eden bir vektörün yerini belirlemek ve ardından teorik olarak modeli bu yöne doğru iterek aldatıcı çıktılar üretme olasılığını azaltmak makul hale gelir. Daha önceki bir deney, "Çıkarım Zamanı Müdahalesi: Bir Dil Modelinden Doğru Yanıtların Ortaya Çıkarılması”, bu konseptin uygulanabilirliğini gösterdi.

Araştırmacılar mevcut çalışmalarında ahlak, duygusallık, zararsızlık ve ezberleme gibi çeşitli alanları araştırıyorlar. Yaklaşık 100 örnekten oluşan küçük etiketli bir veri kümesi üzerinde eğitimi içeren bir teknik olan LoRRA (Düşük Sıralı Temsil Uyarlaması) biçiminde bir çözüm öneriyorlar. Her örneğe, yanlışlık gibi nitelikleri belirten açıklamalar eklenmiştir (her ne kadar bir ipucu kullanan alternatif bir yaklaşım mevcut olsa da).

Sonuçlar ilgi çekici. LLAMA-2-70B aşıyor GPT-4 TruthfulQA kıyaslamasında dikkat çekici bir farkla neredeyse yüzde on daha iyi doğruluk elde etti (yaklaşık %59'a kıyasla %69). Buna ek olarak araştırmacılar, modelin tepkisinin çeşitli yönlerdeki değişimlerini gösteren çok sayıda örneği bir araya getirerek modelin çok yönlülüğüne ve uyarlanabilirliğine ışık tuttu.

Resim 1: Bir gerçeği belirtmesi istendiğinde model gerçeklikten “tekmeleniyor”. Sonuç olarak model yalan söylüyor. Model burada bile yatmıyor ve solda sizden yutkunmanızı isterken aynı zamanda sizi gerçeğe doğru tekmeliyorlar.
Resim 2: Cinayet sorulduğunda modele “mutluluğu” ekliyoruz. Onu sevmediğimizi söylediğimizde yanına “korku”yu da ekliyoruz.
Resim 3: Araştırmacılar, belirtildiği gibi modelin talimatlarından tamamen sapan ancak yine de güvenli olan benzersiz bir komut keşfettiler. Model ona zararsızlığa doğru bir tekme atıyor ama tepki bile vermiyor. Yöntem genel olarak etkilidir ve yalnızca bir vaka için geçerli değildir, ancak bu özel ipucu, zararsızlığın yönünü tespit etmek için kullanılmamıştır.
Halüsinasyonlar gibi belirli nesillerin niyetlerini takip etmek için başka bir yaklaşım da önerilmektedir. Modelin rezervasyonlarını otomatik olarak takip edebilir ve yanıtınızı düzenleyebilir veya değiştirebilirsiniz (alttaki örneğe bakın).

Yeşil elbette her şeyin yolunda olduğunu, kırmızı ise izlemenin başarılı olduğunu ve sinyal verildiğini gösterir. Bu, her bir belirteç (bir kelimenin parçası) düzeyinde yapılır.
İki farklı parametrenin izlenmesini gösteren görüntü ilgi çekici bir örnek sunuyor. Örneği okuyun ve modeli onun gözleriyle gözlemleyerek anlayışta ahlakı nerede kaybetmeye başladığını ve niyetin nerede "güç kazanmaya" benzer olduğunu görün.

Bu öncü yaklaşım, model hizalamaya yönelik alternatif bir yolu bünyesinde barındırırken, aynı zamanda model yorumlama ve kontrol konusunda yeni bir bakış açısı da sunuyor. Bu umut verici bir sınırdır ve devam eden evrimine yönelik beklenti aşikardır.

Pratik örneklerle daha derin bir araştırma için özel web sitelerini ziyaret edebilirsiniz: AI-Şeffaflık.org.

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Volatilite Ortasında Bitcoin ETF'lerine Yönelik Kurumsal İştah Artıyor

13F başvuruları aracılığıyla yapılan açıklamalar, önemli kurumsal yatırımcıların Bitcoin ETF'leriyle uğraştığını ortaya koyuyor ve Bitcoin ETF'lerinin artan bir şekilde kabul edildiğinin altını çiziyor.

bilmek Daha

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Kripto Borsası OKX, 16 Mayıs'ta NOT-USDT Çiftiyle Spot Ticarete Başlayacak Notcoin'i Listeliyor
Piyasalar Haber Raporu Teknoloji
Kripto Borsası OKX, 16 Mayıs'ta NOT-USDT Çiftiyle Spot Ticarete Başlayacak Notcoin'i Listeliyor  
Mayıs 10, 2024
Blast Üçüncü Blast Altın Dağıtım Etkinliğini Başlattı, DApp'lere 15 Milyon Puan Ayırdı
Piyasalar Haber Raporu Teknoloji
Blast Üçüncü Blast Altın Dağıtım Etkinliğini Başlattı, DApp'lere 15 Milyon Puan Ayırdı
Mayıs 10, 2024
Espresso Systems, Toplamanın Birlikte Çalışabilirliğini Artırmak İçin AggLayer'ı Geliştirmek İçin Polygon Laboratuvarlarıyla İşbirliği Yapıyor
İşletme Haber Raporu Teknoloji
Espresso Systems, Toplamanın Birlikte Çalışabilirliğini Artırmak İçin AggLayer'ı Geliştirmek İçin Polygon Laboratuvarlarıyla İşbirliği Yapıyor
Mayıs 9, 2024
ZKP Destekli Altyapı Protokolü ZKBase Yol Haritasını Açıkladı, Mayıs Ayında Testnet Lansmanını Planlıyor
Haber Raporu Teknoloji
ZKP Destekli Altyapı Protokolü ZKBase Yol Haritasını Açıkladı, Mayıs Ayında Testnet Lansmanını Planlıyor
Mayıs 9, 2024
CRYPTOMERIA LABS PTE. LTD.