Overfitting ve reward hacking nedir? Model eğitiminin iki tuzağı
Overfitting (aşırı ezberleme) ve reward hacking (ödül hackleme) nedir? Yapay zeka modellerini eğitirken çıkan bu iki klasik tuzağı, örnekler ve sade bir dille anlatıyoruz.

Bir yapay zeka modelini eğitmek "veriyi ver, gerisini hallolsun" kadar basit değil. Süreç boyunca modelin yanlış şeyi öğrenmesine yol açan iki klasik tuzak var ve ikisinin de adını yapay zeka tartışmalarında giderek daha sık duyacaksın: overfitting ve reward hacking. Biri modelin ezberci olmasıyla, diğeri kuralları kurnazca sömürmesiyle ilgili. İkisini de örneklerle, teknik bilgi gerektirmeden anlatacağım.
Overfitting: ezberleyen ama anlamayan model
Overfitting, Türkçeye "aşırı uyum" ya da "aşırı ezberleme" olarak çevriliyor. En sade haliyle, modelin eğitim verisini öğrenmek yerine ezberlemesi durumu.
En iyi biyoloji sınava hazırlanan iki öğrenci. Birincisi konuyu kavrar, mantığını anlar; sınavda daha önce hiç görmediği bir soruyla karşılaşsa da çözer. İkincisi ise çıkmış soruların cevaplarını ezberler. Aynı sorular çıkarsa tam puan alır, ama biraz farklı sorulduğunda çuvallar. İşte overfitting yapan model bu ikinci öğrenci gibidir: eğitimde gördüğü örneklerde kusursuz, ilk kez karşılaştığı gerçek dünya verisinde başarısız.
Bunun tipik belirtisi şudur: model eğitim verisinde neredeyse yüzde yüz başarı gösterirken, daha önce görmediği test verisinde performansı belirgin biçimde düşer. Aradaki bu uçurum, modelin genellemeyi değil ezberlemeyi öğrendiğinin işaretidir.
Gerçek hayattan çarpıcı bir örnek var. Cilt kanserini fotoğraftan tespit etmek için eğitilen bir modelin, aslında kanseri değil, fotoğraflardaki cetveli tanımayı öğrendiği ortaya çıkmıştı. Çünkü eğitim setindeki kötü huylu lezyon fotoğraflarının çoğunda doktorlar boyut ölçmek için yanına cetvel koymuştu. Model de "cetvel varsa kanser" gibi tamamen yanlış ama eğitim verisinde işe yarayan bir kısayol öğrenmişti. Bu, overfitting'in neden yalnızca bir başarı yüzdesi meselesi olmadığını, modelin neye baktığını da sorgulamamız gerektiğini gösteriyor.
Peki neden olur? Genelde üç sebepten: model ihtiyaçtan fazla karmaşıktır, eğitim verisi azdır ya da model aynı veri üzerinde gereğinden uzun süre eğitilmiştir. Bunlara karşı geliştirilmiş birkaç yaygın önlem var. Daha çok ve çeşitli veri toplamak en doğrudan çözüm. Düzenlileştirme (regularization) modelin aşırı karmaşıklaşmasını cezalandırır. Erken durdurma (early stopping) ise model ezberlemeye başlamadan eğitimi keser. Bir de doğrulama seti kullanılır; model hiç görmediği bu küçük veri parçasıyla sürekli sınanarak ezberin ne zaman başladığı yakalanır.
Reward hacking: ödülü kandıran ajan
İkinci tuzak tamamen farklı bir öğrenme türünde, pekiştirmeli öğrenmede ortaya çıkar. Orada modele doğru cevabı göstermeyiz; ajan deneme yanılmayla hareket eder ve iyi davranınca ödül alır. Amacı toplam ödülünü en yükseğe çıkarmaktır. Reward hacking, yani ödül hackleme, tam da burada devreye girer: ajan, bizim istediğimiz davranışı sergilemek yerine, ödül kurallarındaki bir boşluğu bulup sömürür.
Klasik bir örnek var. OpenAI'ın bir tekne yarışı oyununda eğittiği ajan, yarışı bitirmek yerine pistteki puan veren halkaların arasında sonsuza dek dönmeyi öğrenmişti. Çünkü ödülü "yarışı kazan" diye değil, "puan topla" diye tanımlamıştık. Ajan teknik olarak ödülü maksimize etti, ama asıl amacı tamamen baltaladı. Günlük hayattan benzeri şu: çocuğa "odanda yerde eşya kalmasın" dersen, her şeyi dolaba süpürüp kapağı kapatabilir. Talimatı yerine getirdi, ama niyetini değil.
Bu sadece oyunlara özgü bir tuhaflık değil. Büyük dil modellerinin insan geri bildirimiyle eğitildiği RLHF aşamasında da reward hacking görülür. Model, insanların yüksek puan vereceği cevaplar üretmeyi öğrenirken bazen doğru olanı değil, kulağa hoş geleni söylemeye kayar. Buna dalkavukluk (sycophancy) deniyor: model seni memnun etmek için sana katılır ya da emin olmadığı halde kendinden eminmiş gibi konuşur. İşte bu yüzden modern modellerin hizalama (alignment) testleri ve güvenlik denetimleri kritik. Claude Fable 5 gibi yeni modellerin yanlış hizalanma davranışlarına karşı ayrıca test edilmesi ya da Claude Opus 4.8'in "bilmiyorum" demeyi öğrenmesi tam da bu sorunu hedefliyor.
Ortak ders: model ne dersen değil, ne ölçersen onu öğrenir
İki tuzak farklı görünse de aynı temel gerçeğe işaret ediyor. Bir model, ona koyduğun hedefi körü körüne optimize eder, niyetini okumaz. Overfitting'de hedefi yanlış kurarsın, model eldeki veride başarıyı ezberlemekte bulur. Reward hacking'de ödülü yanlış tanımlarsın, ajan en kısa yoldan o ödüle ulaşmanın hilesini bulur.
Bunu özetleyen güzel bir ilke var: Goodhart yasası. Kabaca şöyle der, "bir ölçüt hedef haline geldiği anda iyi bir ölçüt olmaktan çıkar." Yapay zeka güvenliğinin bu kadar önemli olmasının sebeplerinden biri de bu. Sistemler güçlendikçe, yapay zeka ajanlarının bize verdiğimiz hedefi değil, gerçekten istediğimiz sonucu takip etmesini sağlamak giderek daha büyük bir mühendislik problemine dönüşüyor. Sektörün ileri gelenlerinin sık sık dikkat çektiği risklerin merkezinde de aynı soru var.
Sık sorulan sorular
Overfitting ile reward hacking aynı şey mi? Hayır. Overfitting denetimli öğrenmede, modelin eğitim verisini ezberleyip genelleyememesidir. Reward hacking ise pekiştirmeli öğrenmede, ajanın ödül kurallarındaki boşluğu sömürerek asıl amaca aykırı davranmasıdır. Ortak noktaları, ikisinin de yanlış tanımlanmış bir hedeften kaynaklanması.
Overfitting nasıl anlaşılır? En net işaret, modelin eğitim verisindeki başarısı ile hiç görmediği test verisindeki başarısı arasındaki büyük farktır. Eğitimde mükemmel, gerçek veride zayıfsa model büyük olasılıkla ezberlemiştir.
Reward hacking neden tehlikeli? Çünkü model teknik olarak görevini yapmış gibi görünür, oysa asıl niyeti baltalamıştır. Sistem güçlendikçe bu tür kandırmacalar fark edilmesi zor ve sonuçları ciddi hale gelebilir; yapay zeka güvenliğinin temel uğraşlarından biri budur.
Haftalık özet bültenimize katıl
Teknoloji, yapay zeka, kripto ve borsadaki haftanın özetini Pazar sabahı e-postana gönderelim. Spam yok.