Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Alanın farklı köşelerinden 20'den fazla araştırmacının katıldığı ortak bir çaba, gelişen bir alanın doğmasına neden oldu: temsil mühendisliği (RepE). Bu, türünün ilk araştırması olmasa da, yazarlar hem tanımlayıcı görüşler sunuyor hem de önemli ölçütler oluşturuyor.
Peki temsil mühendisliği tam olarak nedir? Sinir ağlarının, adlarına rağmen gizlilikle örtülmeyen "gizli durumlara" sahip olduğu fikri etrafında dönüyor. Bu durumlar erişilebilir, değiştirilebilir ve gözlemlenebilirdir (modelin ağırlıklarına erişilebilmesi şartıyla). Parametrelerden farklı olarak bunlar, özellikle aşağıdaki durumlarda ağın belirli girdilere verdiği “tepkilerdir”. LLM'ler, metin girişleri. Bu gizli temsiller, modelin bilişsel işleyişine açılan pencereler gibidir; bu, insan beyninden belirgin biçimde farklı bir özelliktir.
Bilişsel bilimle paralellikler kuran yazarlar, benzer araştırmaların potansiyelini vurguluyor. Beyin nöronlarına benzer bir alan olan sinirsel aktivasyonlar alanında anlam vaadi bulunmaktadır. İnsan beynindeki belirli nöronların Kanada veya dürüstlük gibi kavramlarla bağlantılı olması gibi, bu aktivasyonlar da içgörü barındırabilir.
Buradaki ana fikir, modeli istenen yöne yönlendirmek için bu sinirsel aktivasyonları nasıl etkileyebileceğimizin şifresini çözmektir. Örneğin, "dürüstlüğü" temsil eden bir vektörün yerini belirlemek ve ardından teorik olarak modeli bu yöne doğru iterek aldatıcı çıktılar üretme olasılığını azaltmak makul hale gelir. Daha önceki bir deney, "Çıkarım Zamanı Müdahalesi: Bir Dil Modelinden Doğru Yanıtların Ortaya Çıkarılması”, bu konseptin uygulanabilirliğini gösterdi.
Araştırmacılar mevcut çalışmalarında ahlak, duygusallık, zararsızlık ve ezberleme gibi çeşitli alanları araştırıyorlar. Yaklaşık 100 örnekten oluşan küçük etiketli bir veri kümesi üzerinde eğitimi içeren bir teknik olan LoRRA (Düşük Sıralı Temsil Uyarlaması) biçiminde bir çözüm öneriyorlar. Her örneğe, yanlışlık gibi nitelikleri belirten açıklamalar eklenmiştir (her ne kadar bir ipucu kullanan alternatif bir yaklaşım mevcut olsa da).
Sonuçlar ilgi çekici. LLAMA-2-70B aşıyor GPT-4 TruthfulQA kıyaslamasında dikkat çekici bir farkla neredeyse yüzde on daha iyi doğruluk elde etti (yaklaşık %59'a kıyasla %69). Buna ek olarak araştırmacılar, modelin tepkisinin çeşitli yönlerdeki değişimlerini gösteren çok sayıda örneği bir araya getirerek modelin çok yönlülüğüne ve uyarlanabilirliğine ışık tuttu.
Bu öncü yaklaşım, model hizalamaya yönelik alternatif bir yolu bünyesinde barındırırken, aynı zamanda model yorumlama ve kontrol konusunda yeni bir bakış açısı da sunuyor. Bu umut verici bir sınırdır ve devam eden evrimine yönelik beklenti aşikardır.
Pratik örneklerle daha derin bir araştırma için özel web sitelerini ziyaret edebilirsiniz: AI-Şeffaflık.org.
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.