Haber Raporu Teknoloji
04 Ekim 2023

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Alanın farklı köşelerinden 20'den fazla araştırmacının katıldığı ortak bir çaba, gelişen bir alanın doğmasına neden oldu: temsil mühendisliği (RepE). Bu, türünün ilk araştırması olmasa da, yazarlar hem tanımlayıcı görüşler sunuyor hem de önemli ölçütler oluşturuyor.

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti

Peki temsil mühendisliği tam olarak nedir? Sinir ağlarının, adlarına rağmen gizlilikle örtülmeyen "gizli durumlara" sahip olduğu fikri etrafında dönüyor. Bu durumlar erişilebilir, değiştirilebilir ve gözlemlenebilirdir (modelin ağırlıklarına erişilebilmesi şartıyla). Parametrelerden farklı olarak bunlar, özellikle aşağıdaki durumlarda ağın belirli girdilere verdiği “tepkilerdir”. LLM'ler, metin girişleri. Bu gizli temsiller, modelin bilişsel işleyişine açılan pencereler gibidir; bu, insan beyninden belirgin biçimde farklı bir özelliktir.

Bilişsel bilimle paralellikler kuran yazarlar, benzer araştırmaların potansiyelini vurguluyor. Beyin nöronlarına benzer bir alan olan sinirsel aktivasyonlar alanında anlam vaadi bulunmaktadır. İnsan beynindeki belirli nöronların Kanada veya dürüstlük gibi kavramlarla bağlantılı olması gibi, bu aktivasyonlar da içgörü barındırabilir.

Buradaki ana fikir, modeli istenen yöne yönlendirmek için bu sinirsel aktivasyonları nasıl etkileyebileceğimizin şifresini çözmektir. Örneğin, "dürüstlüğü" temsil eden bir vektörün yerini belirlemek ve ardından teorik olarak modeli bu yöne doğru iterek aldatıcı çıktılar üretme olasılığını azaltmak makul hale gelir. Daha önceki bir deney, "Çıkarım Zamanı Müdahalesi: Bir Dil Modelinden Doğru Yanıtların Ortaya Çıkarılması”, bu konseptin uygulanabilirliğini gösterdi.

Araştırmacılar mevcut çalışmalarında ahlak, duygusallık, zararsızlık ve ezberleme gibi çeşitli alanları araştırıyorlar. Yaklaşık 100 örnekten oluşan küçük etiketli bir veri kümesi üzerinde eğitimi içeren bir teknik olan LoRRA (Düşük Sıralı Temsil Uyarlaması) biçiminde bir çözüm öneriyorlar. Her örneğe, yanlışlık gibi nitelikleri belirten açıklamalar eklenmiştir (her ne kadar bir ipucu kullanan alternatif bir yaklaşım mevcut olsa da).

Sonuçlar ilgi çekici. LLAMA-2-70B aşıyor GPT-4 TruthfulQA kıyaslamasında dikkat çekici bir farkla neredeyse yüzde on daha iyi doğruluk elde etti (yaklaşık %59'a kıyasla %69). Buna ek olarak araştırmacılar, modelin tepkisinin çeşitli yönlerdeki değişimlerini gösteren çok sayıda örneği bir araya getirerek modelin çok yönlülüğüne ve uyarlanabilirliğine ışık tuttu.

Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 1: Bir gerçeği belirtmesi istendiğinde model gerçeklikten “tekmeleniyor”. Sonuç olarak model yalan söylüyor. Model burada bile yatmıyor ve solda sizden yutkunmanızı isterken aynı zamanda sizi gerçeğe doğru tekmeliyorlar.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 2: Cinayet sorulduğunda modele “mutluluğu” ekliyoruz. Onu sevmediğimizi söylediğimizde yanına “korku”yu da ekliyoruz.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Resim 3: Araştırmacılar, belirtildiği gibi modelin talimatlarından tamamen sapan ancak yine de güvenli olan benzersiz bir komut keşfettiler. Model ona zararsızlığa doğru bir tekme atıyor ama tepki bile vermiyor. Yöntem genel olarak etkilidir ve yalnızca bir vaka için geçerli değildir, ancak bu özel ipucu, zararsızlığın yönünü tespit etmek için kullanılmamıştır.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
Halüsinasyonlar gibi belirli nesillerin niyetlerini takip etmek için başka bir yaklaşım da önerilmektedir. Modelin rezervasyonlarını otomatik olarak takip edebilir ve yanıtınızı düzenleyebilir veya değiştirebilirsiniz (alttaki örneğe bakın).

Yeşil elbette her şeyin yolunda olduğunu, kırmızı ise izlemenin başarılı olduğunu ve sinyal verildiğini gösterir. Bu, her bir belirteç (bir kelimenin parçası) düzeyinde yapılır.
Yapay Zeka Araştırmacıları Daha Az Yalan Söylemek için Büyük Dil Modellerini Öğretti
İki ayrı parametrenin izlenmesini gösteren görüntü ilgi çekici bir örnek sunuyor. Örneği okuyun ve modeli onun gözleriyle gözlemleyerek, anlayışta ahlakını nerede kaybetmeye başladığını ve niyetin nerede "güç kazanmaya" benzediğini görün.

Bu öncü yaklaşım, model hizalamaya yönelik alternatif bir yolu bünyesinde barındırırken, aynı zamanda model yorumlama ve kontrol konusunda yeni bir bakış açısı da sunuyor. Bu umut verici bir sınırdır ve devam eden evrimine yönelik beklenti aşikardır.

Pratik örneklerle daha derin bir araştırma için özel web sitelerini ziyaret edebilirsiniz: AI-Şeffaflık.org.

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hot Stories
Bültenimize Katılın.
Güncel Haberler

Solana Fırtınasından Önceki Sessizlik: Grafikler, Balinalar ve Zincir Üstü Sinyaller Şu Anda Ne Söylüyor?

Solana, potansiyel ... ile karşı karşıya kalırken, artan benimsenme, kurumsal ilgi ve önemli ortaklıklar sayesinde güçlü bir performans gösterdi.

bilmek Daha

Nisan 2025'te Kripto: Önemli Trendler, Değişimler ve Sırada Ne Var

Nisan 2025'te kripto alanı, Ethereum'un Pectra ... için hazırlanmasıyla birlikte temel altyapının güçlendirilmesine odaklandı.

bilmek Daha
Devamını Oku
Daha fazla
Cardano Vakfı, Kurumsal Finansal Raporlamayı Geliştirmek İçin Reeve'i Kullanıma Sundu
Haber Raporu Teknoloji
Cardano Vakfı, Kurumsal Finansal Raporlamayı Geliştirmek İçin Reeve'i Kullanıma Sundu
Ocak 16, 2026
Hyperliquid, Tether ve Selini Capital, perakende kullanıcılar için yüksek likiditeli zincir üstü alım satım imkanı sunmak amacıyla Dreamcash ile ortaklık kurdu.
Haber Raporu Teknoloji
Hyperliquid, Tether ve Selini Capital, perakende kullanıcılar için yüksek likiditeli zincir üstü alım satım imkanı sunmak amacıyla Dreamcash ile ortaklık kurdu.
Ocak 16, 2026
Kripto Para Ortaklıkları Özeti: Polygon, Stripe ve Dow Jones, Ocak Ayının 2. Haftasına Şekil Verdi
Haber Raporu Teknoloji
Kripto Para Ortaklıkları Özeti: Polygon, Stripe ve Dow Jones, Ocak Ayının 2. Haftasına Şekil Verdi
Ocak 16, 2026
OpenAI Yapay Zeka Destekli Beyin-Bilgisayar Arayüzlerini Geliştirmek İçin Merge Labs'e Tohum Yatırımı Yapılmasına Öncülük Ediyor
İşletme Haber Raporu Teknoloji
OpenAI Yapay Zeka Destekli Beyin-Bilgisayar Arayüzlerini Geliştirmek İçin Merge Labs'e Tohum Yatırımı Yapılmasına Öncülük Ediyor
Ocak 16, 2026
CRYPTOMERIA LABS PTE. LTD.