Embedding nedir? Yapay zeka anlamı sayıya nasıl çevirir?

Embedding nedir, ne işe yarar? Yapay zekanın kelime ve metinlerin anlamını sayı dizilerine çevirmesini, arama ve öneri sistemlerindeki rolünü sade bir dille anlatıyoruz.

Kaan Dülgar··3 dk okuma
Embedding nedir? Yapay zeka anlamı sayıya nasıl çevirir?

Bilgisayarlar aslında kelimeleri anlamaz, yalnızca sayıları işler. Peki bir yapay zeka "kral" ile "kraliçe" kelimelerinin birbirine yakın, "kral" ile "muz" kelimelerinin uzak olduğunu nasıl biliyor? Cevap, yapay zekanın en temel ama en az konuşulan kavramlarından birinde gizli: embedding. Bu yazıda anlamı sayıya çevirme fikrini sade bir dille açıklayacağım.

Embedding nedir?

Embedding, bir kelimenin, cümlenin ya da metnin anlamını temsil eden bir sayı dizisidir. Bu sayı dizisine teknik olarak "vektör" denir. Yani embedding, insan dilindeki anlamı, makinenin işleyebileceği matematiksel bir forma çevirme işlemidir.

Önemli olan şu: bu sayılar rastgele değil. Anlamca benzer şeyler, sayısal olarak da birbirine yakın değerler alır. "Köpek" ve "kedi" kelimelerinin embedding'leri birbirine yakındır, çünkü ikisi de evcil hayvandır. "Köpek" ile "uçak" ise uzaktır. Model, kelimeleri göre göre hangi kavramların hangi bağlamlarda birlikte geçtiğini öğrenir ve bu ilişkileri sayılara yansıtır.

Anlam haritası gibi düşün

Bunu kavramanın en kolay yolu bir harita. Embedding'leri, her kelimenin bir nokta olarak yerleştirildiği devasa bir anlam haritası gibi hayal et. Bu haritada birbirine yakın yerleşen kelimeler anlamca da yakındır. Şehirler nasıl coğrafi olarak kümeleniyorsa, kavramlar da bu haritada anlamlarına göre kümelenir; meyveler bir bölgede, ülkeler başka bir bölgede toplanır.

Bu yaklaşımın en ünlü örneği şu: embedding'lerle adeta anlam üzerinde aritmetik yapılabilir. "Kral" vektöründen "erkek" çıkarıp "kadın" eklediğinde, sonuç şaşırtıcı biçimde "kraliçe" vektörüne yaklaşır. Bu, modelin sadece kelimeleri değil, aralarındaki ilişkileri de yakaladığını gösterir.

Embedding ne işe yarar?

Embedding, görünmeyen ama her yerde olan bir teknoloji. Birkaç temel kullanım alanı var.

Anlamsal arama. Klasik arama anahtar kelime eşleştirir; embedding tabanlı arama ise anlamı eşleştirir. "Ucuz uçak bileti" araması, "ekonomik hava yolu fiyatları" içeren bir metni de bulabilir, çünkü ikisinin anlamı yakındır.

Öneri sistemleri. İzlediğin diziye benzer içerikler ya da dinlediğin şarkıya yakın parçalar, büyük ölçüde embedding benzerlikleriyle bulunur.

RAG'in kalbi. Daha önce anlattığımız, modele belge çektirip okutan RAG yönteminin "getirme" adımı tam olarak embedding'lerle çalışır. Soru da, belgeler de embedding'e çevrilir ve soruya anlamca en yakın belgeler bulunur. Bu yüzden güncel bilgiye erişebilen yapay zeka araçlarının ve arka planda çalışan asistanların arkasında çoğu zaman bir embedding katmanı vardır.

Kısacası embedding, GPT ya da Claude gibi sistemlerin dili "anlamlandırma" yeteneğinin temel taşlarından biri. Dilin sayıya dönüştüğü, makinenin anlamı ilk kez yakaladığı nokta burasıdır.

Embedding nereden geliyor?

Bir metni embedding'e çeviren şey, bu iş için eğitilmiş özel bir modeldir. Bu model, milyonlarca metni göre göre hangi kelimelerin hangi bağlamlarda birlikte geçtiğini öğrenir ve bu bilgiyi vektörlere yansıtır. Önemli bir nokta şu: embedding'ler sabit değil, onları üreten modele göre değişir. Farklı modeller aynı kelimeyi farklı sayı dizileriyle temsil edebilir. Bu yüzden bir arama ya da öneri sistemi kurarken, hem belgeleri hem de kullanıcının sorgusunu aynı embedding modeliyle çevirmek gerekir; aksi halde sayılar aynı "anlam haritasına" oturmaz ve karşılaştırma anlamsız hale gelir.

Sık sorulan sorular

Embedding ile token aynı şey mi? Hayır. Token, metnin bölündüğü en küçük işlem birimidir. Embedding ise o birimlerin ya da daha büyük metinlerin anlamını temsil eden sayı dizisidir. Token "parça", embedding "o parçanın anlamının matematiksel hali" gibi düşünülebilir.

Embedding'i kendim kullanabilir miyim? Evet. Pek çok yapay zeka sağlayıcısı, metni embedding'e çeviren hazır servisler sunuyor. Bu vektörler bir vektör veritabanında saklanarak anlamsal arama veya öneri sistemi gibi uygulamalar geliştirilebilir.

Haftalık özet bültenimize katıl

Teknoloji, yapay zeka, kripto ve borsadaki haftanın özetini Pazar sabahı e-postana gönderelim. Spam yok.