LLM (büyük dil modeli) nedir? ChatGPT'nin arkasındaki teknoloji

LLM yani büyük dil modeli nedir, nasıl çalışır? ChatGPT, Claude ve Gemini'nin temelini, token ve parametre kavramlarını jargonsuz, örneklerle sade bir dille anlatıyoruz.

Kaan Dülgar··5 dk okuma
LLM (büyük dil modeli) nedir? ChatGPT'nin arkasındaki teknoloji

ChatGPT'ye bir soru sorduğunda, Claude'dan kod yazmasını istediğinde ya da Gemini'yle sohbet ettiğinde aslında hepsinde aynı teknolojiyle konuşuyorsun: büyük dil modeli, kısaca LLM. Son birkaç yılın en çok duyduğumuz kısaltması bu. Peki bir LLM tam olarak nedir nasıl olur da bir program insan gibi cümle kurar? Bu yazıda kavramı en baştan teknik bilgi gerektirmeden açıklayacağım.

LLM nedir, basitçe?

LLM, İngilizce "Large Language Model" ifadesinin kısaltması; Türkçesi büyük dil modeli. En sade tanımıyla, devasa miktarda metinle eğitilmiş ve temel görevi bir sonraki kelimeyi tahmin etmek olan büyük bir yapay sinir ağıdır.

Kulağa fazla basit geliyor olabilir, ama sihir tam da burada. Telefonundaki klavyenin sıradaki kelimeyi önermesi gibi düşün, ama milyonlarca kat daha güçlü bir versiyonu. Model, "Türkiye'nin başkenti" yazdığında sıradaki kelimenin büyük olasılıkla "Ankara" olduğunu bilir. Bu tahmini milyarlarca kez, cümle cümle yaparak koca paragraflar, kodlar ve hatta şiirler üretir. Yani LLM aslında anlamı "bilmez", olasılıkları çok iyi hesaplar. Ortaya çıkan akıcılık da bu hesabın ne kadar başarılı olduğunu gösterir.

Nasıl çalışıyor: token ve parametre

LLM'leri anlamak için iki kelimeyi tanımak yeterli: token ve parametre.

Token, modelin metni parçaladığı en küçük birim. Bir token bazen bir kelime, bazen bir kelimenin parçası, bazen de bir noktalama işaretidir. Mesela "kitaplarım" kelimesi model için "kitap", "lar", "ım" gibi parçalara ayrılabilir. Model metni bu token'lar halinde okur ve yine token token üretir. ChatGPT gibi servislerin ücretlendirmesi de genelde token sayısına göre yapılır, çünkü modelin işlediği gerçek birim budur.

Parametre ise modelin öğrenme sırasında ayarladığı iç ayar düğmeleri gibidir. Bir LLM'in ne kadar "büyük" olduğu çoğunlukla parametre sayısıyla ölçülür ve bu sayı günümüzde yüz milyarlarca seviyesinde. Her parametre, hangi kelimenin hangi bağlamda gelme ihtimalinin yüksek olduğuna dair minik bir bilgi taşır. Milyarlarca düğme bir araya gelince ortaya dili şaşırtıcı derecede iyi kavrayan bir sistem çıkar.

Bu sistemin altında yatan mimarinin adı Transformer ve bu modellerin uzun metinlerde bağlamı koruyabilmesinin sırrı orada saklı. 2017 tarihli "Attention is All You Need" makalesiyle ortaya çıkan bu mimarinin detayına ayrı bir yazıda gireceğiz, ama akılda kalması gereken şu: Transformer, modelin bir cümledeki hangi kelimenin hangisiyle ilişkili olduğunu kavramasını sağlar.

Bir de sık duyacağın bir terim var: bağlam penceresi. Bu, modelin aynı anda akılda tutabildiği token miktarı, yani bir nevi kısa süreli hafızası. Bağlam penceresi büyüdükçe model daha uzun belgeleri tek seferde okuyup tutarlı biçimde değerlendirebilir. Yeni nesil modellerin koca raporları ya da kitap uzunluğunda metinleri özetleyebilmesinin sebebi, bu pencerenin son yıllarda milyonlarca token seviyesine çıkmış olması.

Bir LLM nasıl eğitilir?

Süreç kabaca iki aşamadan oluşur.

İlk aşama ön eğitim. Modele internetten derlenmiş muazzam bir metin yığını verilir: kitaplar, makaleler, web siteleri, forumlar. Model bu metinler üzerinde sürekli "bir sonraki kelimeyi tahmin et" oyununu oynayarak dilin gramerini, gerçekleri ve üslupları kendiliğinden öğrenir. Bu aşama haftalar sürer. İkinci aşama ince ayar. Ham model dili bilir ama nasıl yardımcı kibar ve güvenli davranacağını bilmez. Burada insanlar devreye girer modelin cevaplarını puanlar ve model bu geri bildirime göre terbiye edilir. ChatGPT ya da Claude'un sana neden saygılı ve düzenli cevaplar verdiğinin cevabı bu aşamada. İşte Claude Fable 5 gibi en yeni modellerin güvenlik filtreleri de büyük ölçüde bu adımda şekilleniyor.

LLM neyi iyi yapar, neyi yapamaz?

LLM'ler metinle ilgili işlerde olağanüstü: yazı yazma, özetleme, çeviri, soru cevaplama, kod üretme ve fikir geliştirme. Ücretsiz yapay zeka araçlarının çoğunun altında bir LLM çalışıyor.

Ama sınırlarını bilmek şart. En bilinen sorun halüsinasyon: model bilmediği bir şeyi, son derece kendinden eminmiş gibi uydurabilir. Çünkü unutma, görevi doğruyu söylemek değil, olası bir devam üretmek. Bunun yanında klasik LLM'ler kendi eğitim verisinin tarihinden sonrasını bilmez, karmaşık matematikte tökezleyebilir ve sayısal kesinlik gerektiren işlerde dikkatli kullanılmalıdır. Bu yüzden bir LLM'in verdiği önemli bilgiyi, özellikle tarih, rakam ve isim içeriyorsa, ikinci bir kaynaktan doğrulamak iyi bir alışkanlık.

2026'da öne çıkan LLM'ler

Bugün piyasaya yön veren birkaç büyük isim var. OpenAI'ın GPT serisi, Anthropic'in Claude ailesi ve Google'ın Gemini'si en çok konuşulanlar. Bunlar arasındaki farkları, hangisinin hangi işte daha iyi olduğunu merak ediyorsan Claude ve ChatGPT karşılaştırmamıza göz atabilirsin. Genel eğilim şu yönde: modeller her nesilde daha uzun metni akılda tutabiliyor, daha az hata yapıyor ve giderek daha çok "ajan" gibi, yani kendi başına çok adımlı görevleri tamamlayabilen sistemlere dönüşüyor.

Bir LLM'den daha iyi sonuç almak

LLM'lerin gücünü görmek istiyorsan, ona soru sorma biçimin sonucu doğrudan etkiler. Birkaç pratik alışkanlık epey fark yaratır:

  • Bağlam ver. "Bir e-posta yaz" yerine kime, hangi amaçla, hangi tonda yazılacağını belirt. Model tahmin makinesi olduğu için ne kadar çok ipucu verirsen o kadar isabetli üretir.
  • Rol biç. "Deneyimli bir bilgisayar mühendisi gibi şu kodu düzelt" demek, modelin daha tutarlı bir üslup tutturmasına yardım eder.
  • Adımlara böl. Karmaşık bir işi tek seferde istemek yerine parçalara ayırmak hata oranını düşürür.
  • Doğrula. Özellikle rakam, tarih ve isim içeren çıktılarda modele güvenip geçme; halüsinasyon riski her zaman var.

Sık sorulan sorular

LLM ile yapay zeka aynı şey mi? Hayır. Yapay zeka çok geniş bir şemsiye kavram. LLM ise bu şemsiyenin altındaki, özellikle dil üzerine uzmanlaşmış bir model türü. Görüntü üreten ya da araç kullanan başka yapay zeka türleri de var; LLM yalnızca metin tarafının yıldızı.

LLM gerçekten "düşünüyor" mu? Teknik anlamda hayır. Bir LLM, bir sonraki kelimenin olasılığını hesaplayarak metin üretir, insan gibi bilinçli bir düşünme süreci yaşamaz. Sonuçların bu kadar mantıklı görünmesi, modelin dildeki örüntüleri muazzam ölçekte öğrenmiş olmasından kaynaklanır.

Bir LLM'i kendi bilgisayarımda çalıştırabilir miyim? Küçük ve açık kaynak modellerin bazıları güçlü bir ekran kartıyla evde çalıştırılabilir. Ancak GPT,Gemini ya da Claude gibi en büyük modeller dev veri merkezleri gerektirdiği için pratikte yalnızca bulut üzerinden, internet bağlantısıyla kullanılır.

Haftalık özet bültenimize katıl

Teknoloji, yapay zeka, kripto ve borsadaki haftanın özetini Pazar sabahı e-postana gönderelim. Spam yok.