Haber Raporu Teknoloji
04 Ekim 2023

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Alanın farklı köşelerinden 20'den fazla araştırmacının katıldığı ortak bir çaba, gelişen bir alanın doğmasına neden oldu: temsil mühendisliği (RepE). Bu, türünün ilk araştırması olmasa da, yazarlar hem tanımlayıcı görüşler sunuyor hem de önemli ölçütler oluşturuyor.

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Peki temsil mühendisliği tam olarak nedir? Sinir ağlarının, adlarına rağmen gizlilikle örtülmeyen "gizli durumlara" sahip olduğu fikri etrafında dönüyor. Bu durumlar erişilebilir, değiştirilebilir ve gözlemlenebilirdir (modelin ağırlıklarına erişilebilmesi şartıyla). Parametrelerden farklı olarak bunlar, özellikle aşağıdaki durumlarda ağın belirli girdilere verdiği “tepkilerdir”. LLM'ler, metin girişleri. Bu gizli temsiller, modelin bilişsel işleyişine açılan pencereler gibidir; bu, insan beyninden belirgin biçimde farklı bir özelliktir.

Bilişsel bilimle paralellikler kuran yazarlar, benzer araştırmaların potansiyelini vurguluyor. Beyin nöronlarına benzer bir alan olan sinirsel aktivasyonlar alanında anlam vaadi bulunmaktadır. İnsan beynindeki belirli nöronların Kanada veya dürüstlük gibi kavramlarla bağlantılı olması gibi, bu aktivasyonlar da içgörü barındırabilir.

Buradaki ana fikir, modeli istenen yöne yönlendirmek için bu sinirsel aktivasyonları nasıl etkileyebileceğimizin şifresini çözmektir. Örneğin, "dürüstlüğü" temsil eden bir vektörün yerini belirlemek ve ardından teorik olarak modeli bu yöne doğru iterek aldatıcı çıktılar üretme olasılığını azaltmak makul hale gelir. Daha önceki bir deney, "Çıkarım Zamanı Müdahalesi: Bir Dil Modelinden Doğru Yanıtların Ortaya Çıkarılması”, bu konseptin uygulanabilirliğini gösterdi.

Araştırmacılar mevcut çalışmalarında ahlak, duygusallık, zararsızlık ve ezberleme gibi çeşitli alanları araştırıyorlar. Yaklaşık 100 örnekten oluşan küçük etiketli bir veri kümesi üzerinde eğitimi içeren bir teknik olan LoRRA (Düşük Sıralı Temsil Uyarlaması) biçiminde bir çözüm öneriyorlar. Her örneğe, yanlışlık gibi nitelikleri belirten açıklamalar eklenmiştir (her ne kadar bir ipucu kullanan alternatif bir yaklaşım mevcut olsa da).

Sonuçlar ilgi çekici. LLAMA-2-70B aşıyor GPT-4 TruthfulQA kıyaslamasında dikkat çekici bir farkla neredeyse yüzde on daha iyi doğruluk elde etti (yaklaşık %59'a kıyasla %69). Buna ek olarak araştırmacılar, modelin tepkisinin çeşitli yönlerdeki değişimlerini gösteren çok sayıda örneği bir araya getirerek modelin çok yönlülüğüne ve uyarlanabilirliğine ışık tuttu.

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 1: Bir gerçeği belirtmesi istendiğinde model gerçeklikten “tekmeleniyor”. Sonuç olarak model yalan söylüyor. Model burada bile yatmıyor ve solda sizden yutkunmanızı isterken aynı zamanda sizi gerçeğe doğru tekmeliyorlar.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 2: Cinayet sorulduğunda modele “mutluluğu” ekliyoruz. Onu sevmediğimizi söylediğimizde yanına “korku”yu da ekliyoruz.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 3: Araştırmacılar, belirtildiği gibi modelin talimatlarından tamamen sapan ancak yine de güvenli olan benzersiz bir komut keşfettiler. Model ona zararsızlığa doğru bir tekme atıyor ama tepki bile vermiyor. Yöntem genel olarak etkilidir ve yalnızca bir vaka için geçerli değildir, ancak bu özel ipucu, zararsızlığın yönünü tespit etmek için kullanılmamıştır.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Halüsinasyonlar gibi belirli nesillerin niyetlerini takip etmek için başka bir yaklaşım da önerilmektedir. Modelin rezervasyonlarını otomatik olarak takip edebilir ve yanıtınızı düzenleyebilir veya değiştirebilirsiniz (alttaki örneğe bakın).

Yeşil elbette her şeyin yolunda olduğunu, kırmızı ise izlemenin başarılı olduğunu ve sinyal verildiğini gösterir. Bu, her bir belirteç (bir kelimenin parçası) düzeyinde yapılır.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
İki ayrı parametrenin izlenmesini gösteren görüntü ilgi çekici bir örnek sunuyor. Örneği okuyun ve modeli onun gözleriyle gözlemleyerek, anlayışta ahlakını nerede kaybetmeye başladığını ve niyetin nerede "güç kazanmaya" benzediğini görün.

Bu öncü yaklaşım, model hizalamaya yönelik alternatif bir yolu bünyesinde barındırırken, aynı zamanda model yorumlama ve kontrol konusunda yeni bir bakış açısı da sunuyor. Bu umut verici bir sınırdır ve devam eden evrimine yönelik beklenti aşikardır.

Pratik örneklerle daha derin bir araştırma için özel web sitelerini ziyaret edebilirsiniz: AI-Şeffaflık.org.

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Ripple'dan Büyük Yeşil DAO'ya: Kripto Para Projeleri Hayırseverliğe Nasıl Katkıda Bulunuyor?

Hayırsever amaçlar için dijital para birimlerinin potansiyelinden yararlanan girişimleri keşfedelim.

bilmek Daha

AlphaFold 3, Med-Gemini ve diğerleri: Yapay Zekanın 2024'te Sağlık Hizmetlerini Dönüştürme Yolu

Yapay zeka, yeni genetik korelasyonların ortaya çıkarılmasından robotik cerrahi sistemlerin güçlendirilmesine kadar sağlık hizmetlerinde çeşitli şekillerde kendini gösteriyor...

bilmek Daha
Devamını Oku
Daha fazla
Geleceğin Ortaya Çıkarılması GameFi: Egemenlik Altına Alınacak Altı Yenilikçi Web3 2025'te Oyun Manzarası
Yaşam Tarzı Haber Raporu Teknoloji
Geleceğin Ortaya Çıkarılması GameFi: Egemenlik Altına Alınacak Altı Yenilikçi Web3 2025'te Oyun Manzarası
Ocak 13, 2025
Bitfinex: Kripto Piyasasında Dikkat Artıyor, Ancak Bitcoin Dayanıklılığını Koruyor
Piyasalar Haber Raporu Teknoloji
Bitfinex: Kripto Piyasasında Dikkat Artıyor, Ancak Bitcoin Dayanıklılığını Koruyor
Ocak 13, 2025
Son Geri Çekilmelere ve Piyasa Dalgalanmasına Rağmen Grayscale, Kripto İçin Uzun Vadeli Boğa Görünümüne Güveniyor
Görüş İşletme Piyasalar Teknoloji
Son Geri Çekilmelere ve Piyasa Dalgalanmasına Rağmen Grayscale, Kripto İçin Uzun Vadeli Boğa Görünümüne Güveniyor
Ocak 13, 2025
UniSat, CAT Protokolü Güncellenirken CAT20 Pazar Hizmetlerini Askıya Aldı
Haber Raporu Teknoloji
UniSat, CAT Protokolü Güncellenirken CAT20 Pazar Hizmetlerini Askıya Aldı
Ocak 13, 2025
CRYPTOMERIA LABS PTE. LTD.