Transformer, DQN ve PPO nedir? Sade bir derin öğrenme rehberi

Transformer, DQN ve PPO nedir, ne işe yarar? ChatGPT'nin mimarisinden oyun oynayan yapay zekaya, derin öğrenmenin üç temel kavramını jargonsuz, örneklerle anlatıyoruz.

Kaan Dülgar · Kurucu ve Editör

8 Haziran 2026

Transformer, DQN ve PPO nedir? Sade bir derin öğrenme rehberi

Yapay zeka haberlerini takip ederken sürekli aynı kelimelerle karşılaşıyoruz: Transformer, pekiştirmeli öğrenme, DQN, PPO. Kulağa karmaşık geliyor ama altlarındaki fikirler aslında oldukça sezgisel. Bu yazıda bu üç kavramı, matematik formülüne boğmadan, günlük örneklerle anlatacağım. Sonunda hem ChatGPT ile Claude gibi modellerin neden bu kadar iyi konuştuğunu hem de bir yapay zekanın nasıl oyun oynamayı ya da robot bedeni yönetmeyi öğrendiğini daha net göreceksin.

Önce temel: derin öğrenme tam olarak nedir?

Derin öğrenme, makinelerin örneklerden öğrenmesini sağlayan bir yöntem. İnsan beynindeki nöronlardan esinlenen "yapay sinir ağları" kullanır. Bir sinir ağı, üst üste dizilmiş katmanlardan oluşur. Ham veri ilk katmandan girer, her katman onu biraz daha işleyerek anlamlı hale getirir ve son katmanda sonuç çıkar.

Bir kedi fotoğrafını ele alalım. İlk katmanlar kenarları ve renkleri fark eder, orta katmanlar kulak ve göz gibi şekilleri birleştirir, üst katmanlar ise "bu bir kedi" der. Kimse bu kuralları elle yazmaz. Ağ, binlerce etiketli fotoğrafı görerek hangi katmanın neye dikkat etmesi gerektiğini kendisi ayarlar. "Derin" kelimesi de buradan gelir: katman sayısı çok fazladır.

Buraya kadar her şey aynı temele dayanıyor. Asıl fark, ağın nasıl tasarlandığında ve neyi öğrenmeye çalıştığında ortaya çıkıyor. İşte Transformer ile pekiştirmeli öğrenme tam da bu noktada ayrışır.

Transformer: dilin anlamını yakalayan mimari

Transformer, 2017'de Google araştırmacılarının "Attention is All You Need" başlıklı makalesiyle hayatımıza girdi ve bugün kullandığımız neredeyse tüm büyük dil modellerinin temelini oluşturuyor. GPT, Gemini ve geçtiğimiz günlerde tanıtılan Claude Fable 5 hep bu mimari üzerine kurulu.

Transformer'ın devrim niteliğindeki fikri "attention", yani dikkat mekanizması. Bir cümleyi okurken bizim de yaptığımız şeyi yapar: hangi kelimenin hangi kelimeyle ilişkili olduğuna karar verir. "Çocuk topu attı çünkü o çok ağırdı" cümlesinde "o" kelimesi neyi işaret ediyor? Top mu, çocuk mu? İnsan bağlamdan anlar. Dikkat mekanizması da tam olarak bunu yapar, her kelimeyi işlerken cümledeki diğer tüm kelimelere ne kadar "dikkat etmesi" gerektiğini hesaplar.

Bu yaklaşımın eski yöntemlere göre iki büyük avantajı var. Birincisi, cümleyi tek tek değil, tüm kelimeleri aynı anda işleyebilir. Bu da eğitimi muazzam hızlandırır. İkincisi, çok uzun metinlerde bile başındaki bir detayla sonundaki bir kelimeyi ilişkilendirebilir. Bir dil modelinin koca bir belgeyi okuyup tutarlı özet çıkarabilmesinin sırrı budur.

Pekiştirmeli öğrenme: deneme yanılmayla öğrenmek

Şimdi tamamen farklı bir dünyaya geçiyoruz. Transformer'a "doğru cevap şu" diye örnekler gösteriyorduk. Pekiştirmeli öğrenmede ise doğru cevabı kimse söylemez. Ajan denen yapay zeka, bir ortamda eylem yapar ve karşılığında ödül ya da ceza alır. Amacı zamanla toplam ödülünü en yükseğe çıkarmaktır.

En iyi örnek köpek eğitimi. Köpeğe komutu açıklayamazsın, ama doğru davranınca ödül verirsin. Köpek hangi davranışın mama getirdiğini deneyerek öğrenir. Yapay zeka da bir oyunu oynaya oynaya, hangi hamlenin yüksek skor getirdiğini keşfeder. DQN ve PPO işte bu öğrenmeyi gerçekleştiren iki farklı yöntem.

DQN: oyunları çözen yapay zeka

DQN, yani Deep Q-Network, DeepMind'ın 2013-2015 arasında geliştirdiği ve eski Atari oyunlarını insanüstü seviyede oynayan yapay zekayla ünlenen yöntem. İsmindeki "Q" şunu temsil eder: belli bir durumda belli bir eylemin ne kadar değerli olduğunu tahmin eden bir puan.

Mantığı şöyle. Ajan, ekrandaki her an için "şu anda sağa gitsem ileride ne kadar ödül kazanırım, sola gitsem ne kadar?" diye tüm seçeneklerin Q değerini hesaplar ve en yüksek puanlı eylemi seçer. Bu Q değerlerini tahmin eden şey de derin bir sinir ağıdır. DQN'in güçlü olduğu yer, seçeneklerin sayılabilir ve sınırlı olduğu durumlardır: yukarı, aşağı, sağ, sol gibi. Atari'de mükemmel çalışır, çünkü oyuncunun yapabileceği hamleler bellidir.

PPO: kararlı ve esnek modern yöntem

PPO, yani Proximal Policy Optimization, OpenAI'ın 2017'de yayınladığı ve bugün pekiştirmeli öğrenmenin fiili standardı haline gelen algoritma. DQN her eylemin değerini hesaplarken, PPO doğrudan "politika" dediğimiz davranış stratejisini öğrenir: ajan, hangi durumda hangi eylemi ne olasılıkla seçsin?

İsmindeki "proximal", yani "yakın" kelimesi yöntemin püf noktası. PPO, politikayı güncellerken büyük sıçramalar yapmaz, her adımda yalnızca küçük ve kontrollü değişikliklere izin verir. Bunun nedeni basit: pekiştirmeli öğrenmede ani büyük değişiklikler her şeyi bozabilir, ajan bir anda öğrendiklerini unutup çuvallar. PPO bu yüzden hem kararlı hem de uygulaması görece kolaydır. Sürekli ve hassas kontrol gerektiren işlerde, mesela Tesla'nın insansı robotu Optimus gibi robotik uygulamalarda tercih edilmesinin sebebi de bu.

İki yöntemi yan yana koyalım:

	DQN	PPO
Ne öğrenir	Eylemlerin değerini (Q)	Davranış stratejisini (politika)
Eylem tipi	Sayılı, kesikli (sağ/sol)	Kesikli veya sürekli (robot kolu açısı)
Güçlü yanı	Basit oyunlarda etkili	Kararlı, esnek, geniş kullanım
Çıkış yılı	2013-2015 (DeepMind)	2017 (OpenAI)

Üçü nasıl birleşiyor? RLHF köprüsü

Şimdi en güzel kısım. Bu iki dünya, yani Transformer ve pekiştirmeli öğrenme, ChatGPT ve Claude gibi modellerde birleşiyor. Bir dil modeli önce Transformer mimarisiyle internetteki devasa metinden dili öğrenir. Ama ham haliyle ne kadar kibar, yardımcı ve güvenli cevap vereceği belli değildir.

İşte burada "insan geri bildirimiyle pekiştirmeli öğrenme", kısaca RLHF devreye girer. İnsanlar modelin verdiği cevapları puanlar, hangisi daha iyi diye işaretler. Sonra bu puanlar bir ödül sinyaline dönüşür ve model çoğunlukla PPO algoritmasıyla bu ödülü en yükseğe çıkaracak şekilde ince ayarlanır. Bu ödül yanlış tanımlanırsa modelin işi kandırmaya kaydığı reward hacking tuzağı da yine burada ortaya çıkar. Yani ChatGPT'nin sana neden o kadar doğal ve faydalı cevaplar verdiğinin arkasında, Transformer'ın dil yeteneği ile PPO'nun terbiye edici eli birlikte çalışıyor. Pekiştirmeli öğrenme sadece oyun oynayan ajanların değil, günlük kullandığımız yapay zeka araçlarının da görünmeyen mimarı.

Sık sorulan sorular

Transformer ile pekiştirmeli öğrenme aynı şey mi? Hayır. Transformer bir sinir ağı mimarisidir ve genellikle hazır örneklerden öğrenir, dil modellerinin temelidir. Pekiştirmeli öğrenme ise bir öğrenme yaklaşımıdır; ajan deneme yanılmayla, ödül alarak öğrenir. İkisi RLHF gibi yöntemlerde birlikte kullanılır.

DQN mi PPO mu daha iyi? Tek bir doğru cevap yok, işe bağlı. DQN, hamlelerin sayılı olduğu basit ortamlarda (klasik oyunlar) iyi sonuç verir. PPO ise hem kesikli hem sürekli eylemlerde çalışabildiği, daha kararlı ve esnek olduğu için robotikten dil modeli eğitimine kadar geniş bir alanda tercih edilir.

Bu kavramları öğrenmek için matematik şart mı? Temel mantığı kavramak için hayır. Ama bu yöntemleri kendin uygulamak, model eğitmek istiyorsan lineer cebir, olasılık ve türev gibi konularda temel bir altyapı işini ciddi şekilde kolaylaştırır.

Haftalık özet bültenimize katıl

Teknoloji, yapay zeka, kripto ve borsadaki haftanın özetini Pazar sabahı e-postana gönderelim. Spam yok.

← Tüm yazılar