Yapay Nörondan Transformer'a
y = f(Wx+b) tek atomu — 80 yıllık AI tarihinin tamamı.
Önkoşul
Bu bölümde öğreneceklerin
- McCulloch-Pitts nöronu → perceptron → MLP → CNN → Transformer zincirini kronolojik olarak say
- Tek bir yapay nöronun matematiğini (y = f(Wx+b)) ve aktivasyon fonksiyonlarını (ReLU, sigmoid, GELU) yaz
- Tek perceptron'un XOR'u neden çözemediğini ve derinliğin ne kattığını açıkla
- Self-attention'ın softmax(QK^T/√d)V formülünü ve multi-head'i özetle
- Bir transformer katmanının SIDRA crossbar'a nasıl haritalandığını göster
Açılış: 80 Yıl, Tek Denklem
1943’te McCulloch ve Pitts, A Logical Calculus of the Ideas Immanent in Nervous Activity makalesinde biyolojik nöronu tek bir mantıksal birime indirdi. 2017’de Vaswani ve arkadaşları Attention is All You Need ile ChatGPT’yi mümkün kılan Transformer mimarisini yayımladı.
Arada 74 yıl, binlerce makale, milyonlarca mühendis-saat var. Ama mimariler değişirken temel matematiksel atom aynı kaldı:
Çarp, topla, eş (aktivasyon), tekrarla. Tüm modern AI — görüntü tanıma, dil modeli, protein katlama, oyun oynama — bu tek cümlenin sayısız üst üste bindirilmesidir.
SIDRA için kritik: bu formülün çekirdeği — bir matris-vektör çarpımı (MVM). Crossbar tam olarak bunu yapmak için tasarlanmış (Bölüm 1.5’te gördük: Ohm + Kirchhoff = MVM). Yani tüm AI mimarilerinin kalbi SIDRA donanımına doğal olarak uyar.
Bu bölüm o 74 yılı hızlıca özetler, her mimarinin hangi sorunu çözdüğünü gösterir, ve Transformer’ın SIDRA crossbar’ına neden ideal olduğunu anlatır.
Sezgi: 9 Adımda Modern AI
AI mimarilerinin evrimi dokuz büyük adımda:
| Yıl | Model | Ana katkı |
|---|---|---|
| 1943 | McCulloch-Pitts nöronu | İlk matematiksel nöron modeli. Binary eşikli. |
| 1949 | Hebb öğrenmesi | Weightler nasıl öğrenilir (3.3’te) |
| 1958 | Rosenblatt perceptron | Tek-katmanlı, eğitilebilir sınıflayıcı |
| 1969 | Minsky & Papert XOR eleştirisi | Perceptron XOR’u çözemez → AI kışı başlar |
| 1986 | Rumelhart-Hinton-Williams backprop | Çoklu-katmanlı eğitim mümkün (3.6’da) |
| 1989-1998 | LeCun CNN (LeNet) | Görüntü için konvolüsyon + pooling |
| 1997 | Hochreiter-Schmidhuber LSTM | Uzun-bağımlı dizi (sekans) öğrenimi |
| 2012 | Krizhevsky AlexNet | GPU + derin CNN → modern AI çağı başlar |
| 2017 | Vaswani Transformer | Self-attention → GPT, BERT, vs. |
Her adım bir önceki sınırlamanın çözümüdür:
- Perceptron: XOR’u çözemezdi → MLP gelir.
- MLP: görüntüde 28×28 piksel fazla parametre → CNN (paylaşılan ağırlık).
- CNN: ardışık veride iyi değil → RNN/LSTM.
- LSTM: uzun diziler zor (gradient vanishing) → Attention.
- Attention: konum bilgisi yok → Transformer (positional encoding).
Şimdi tüm modern devler (GPT, Claude, Gemini, LLaMA) Transformer varyantıdır. Altındaki matematik: + self-attention.
Formalizm: Tek Nörondan Transformer'a
Tek yapay nöron (perceptron):
- — giriş vektörü (özellikler)
- — ağırlık vektörü (öğrenilir)
- — bias
- — aktivasyon fonksiyonu
Aktivasyon fonksiyonları:
| Ad | Formül | Ne işe yarar |
|---|---|---|
| Step | eğer , else 0 | Orijinal Rosenblatt perceptronu |
| Sigmoid | 1940-2000 standartı, gradient vanishing var | |
| Tanh | Sigmoid’in merkezlenmiş versiyonu | |
| ReLU | 2012’den beri derin ağ standartı | |
| GELU | Transformer’da yaygın |
Tek nöron sınıflayıcı yapar: step ise “0 veya 1” çıkışı, ikili sınıflama. Rosenblatt bunu 1958’de kanıtladı.
Çok-Katmanlı Perceptron (MLP):
Her katman bir MVM + aktivasyon. Universal approximation teoremi (Cybenko 1989, Hornik 1991): yeterince geniş 2-katmanlı MLP herhangi bir sürekli fonksiyonu yaklaşık olarak öğrenebilir. Derinlik pratiktir (daha az parametreyle karmaşık fonksiyon) ama teorik olarak 2 katman yeterli.
XOR problemi:
Tek perceptron şu fonksiyonu çözemez:
| XOR | ||
|---|---|---|
| 0 | 0 | 0 |
| 0 | 1 | 1 |
| 1 | 0 | 1 |
| 1 | 1 | 0 |
Çünkü doğrusal ayırıcı mümkün değil (2D’de XOR noktaları doğrusal olarak ayrılmaz). 2-katmanlı MLP çözer: gizli katman hiperyüzeyde XOR’u bükebilir.
Konvolüsyon (CNN):
Görüntü sınıflamada MLP 28×28 = 784 giriş için çok fazla parametre yakalar. CNN çözümü: paylaşılan ağırlık + yerel bağlantı. 3×3 filtre her konumda aynı ağırlıkları kullanır.
Hâlâ MVM. Ama ağırlık tekrarı var. SIDRA’da: crossbar’ın bir kısmı bu filtreyi depolar.
Recurrent (RNN):
Zaman serilerini işlemek için, çıkış bir sonraki adıma beslenir:
Sorun: uzun dizilerde ‘nin tekrar çarpımı → gradient vanishes (küçük özdeğerlerde 0’a gider) veya explodes. LSTM (1997) kapılı bellek ile bunu kısmen çözdü ama yine de ~100 timestep sonrası zor.
Self-Attention ve Transformer:
Transformer her zaman adımını tüm diğer zaman adımlarına doğrudan bağlar. Mekanizma:
Her giriş vektörü ‘dan üç vektör türetilir:
- Query
- Key
- Value
Attention skoru: (normalleştirilmiş iç çarpım).
Softmax ile normalleştirilir: .
Çıkış: .
Vektörleşmiş hâli:
Multi-Head Attention: Bu süreci farklı kafa paralel yapar, sonuçlar birleştirilir. Her kafa farklı ilişki örüntüsü öğrenir (sözdizimi, semantik, konum vs).
Transformer katmanı:
Feed-forward network (FFN): iki-katmanlı MLP. Her transformer bloku: attention + FFN + residual + layer norm.
GPT-class modeller: 96-128 transformer bloku üst üste, boyut, ~175 milyar parametre (GPT-3). Eğitim 3.14 × 10²³ FLOP (~1287 MWh).
Tüm bu matematiğin SIDRA açısından önemi:
Transformer’daki her işlem ya bir MVM () ya da softmax/layer-norm (küçük pay). MVM’ler toplam hesabın %90+‘ı. SIDRA crossbar’ı MVM için doğmuştur → Transformer SIDRA için doğmuştur.
SIDRA Y1’de bir GPT-2 inference’ı:
- GPT-2 small (124M parametre). Her forward pass ~250 MFLOPS.
- Y1: ~30 TOPS analog → 1 inference ~10 µs.
- Batch 32 GPT-2 inference: ~300 µs, 1 mW enerji.
- Beyinle eşdeğer düşünme maliyeti.
Not: Bu tahmini; gerçek Y1 prototipinde kalibrasyon + overhead ile birkaç ms olur. Ama ölçek doğru.
Deney: Tek Nöron AND, OR, XOR Kapılarını Öğreniyor
Tek perceptron ( = step, if , else 0) üç mantık kapısını çözmeye çalışıyor:
AND ():
- Gerçeklik tablosu: (0,0)→0, (0,1)→0, (1,0)→0, (1,1)→1
- Ağırlıklar: , → çözer ✅
OR ():
- (0,0)→0, (0,1)→1, (1,0)→1, (1,1)→1
- , → çözer ✅
XOR ():
- (0,0)→0, (0,1)→1, (1,0)→1, (1,1)→0
- İmkânsız — tek doğrusal ayırıcı yok. 1969 Minsky-Papert.
2-katmanlı MLP XOR’u çözer:
Gizli katman (2 nöron):
- ≈ OR
- ≈ AND
Çıkış:
- = OR − AND = XOR
SIDRA paraleli:
- Tek perceptron = 1 crossbar satırı. Y1’de 2 memristör + 1 eşik devresi.
- 2-katmanlı MLP = 2 crossbar. Her ikisinde eşikli nöron devreleri.
- GPT-2 = 124M parametre → 124M memristör gerekir. Y1’in ~%30’u sadece GPT-2’yi saklar.
- GPT-3 = 175B parametre → 417 SIDRA Y1 çipi (pek mümkün değil Y1’de); Y100 tek çipte saklar.
Kısa Sınav
Laboratuvar Görevi
Bir küçük Transformer bloğunu SIDRA crossbar’a haritala.
Veri:
- Modest model: , , head.
- Bir transformer bloğu: self-attention + FFN.
- SIDRA crossbar: 256×256 memristör, 8-bit ağırlık.
Sorular:
(a) Self-attention için kaç farklı ağırlık matrisi var? Boyutları? (b) Her matrisi 256×256 crossbar’larla kaplamak için kaç crossbar gerekir? (c) FFN için kaç crossbar gerekir? (d) Bir transformer blokunun toplamda kaç crossbar’a ihtiyacı var? (e) SIDRA Y1 419M hücreye sahip = 419M / (256×256) ≈ 6400 crossbar. 1 transformer bloku kaç katman derinlik kapsayabilir?
Çözümler
(a) 4 matris: , her biri 512×512. Ayrıca FFN için 2 matris: (512×2048), (2048×512).
(b) 512/256 = 2 × 2 = 4 crossbar per attention matrix. 4 matris × 4 = 16 crossbar attention için.
(c) FFN: = 512×2048 → (2 × 8) = 16 crossbar. = 2048×512 → 16 crossbar. Toplam 32 crossbar FFN için.
(d) 16 + 32 = 48 crossbar / transformer block.
(e) 6400 / 48 ≈ 133 transformer blokları. GPT-3 small (125M) 12 block, GPT-3 175B 96 block kullanır. SIDRA Y1 ~GPT-3 small ölçekli modeli tek çipte saklayabilir, 96-block GPT-3 için ~Y3 veya Y10 gerekir.
Not: Bu sadece parametre depolama. Eğitilmiş modeli Y1’e yükleme ve inference yapmak uygundur. Eğitim hâlâ GPU’da.
Özet Kart
- Tek nöron: . 80 yıllık tüm AI’nın atomu.
- Evrim: McCulloch-Pitts 1943 → Perceptron 1958 → MLP (backprop 1986) → CNN (1989) → LSTM (1997) → AlexNet (2012) → Transformer (2017).
- XOR limiti: tek perceptron doğrusal ayırıcıdır; MLP (gizli katman) XOR’u çözer.
- Aktivasyonlar: step, sigmoid, tanh, ReLU (modern standart), GELU (Transformer’da).
- Self-attention: softmax(QK^T/√d)V. Her token diğer tüm tokenlerle doğrudan ilişkilenir.
- Transformer bloğu: MultiHead(Attention) + FFN + residual + LayerNorm.
- SIDRA uyumu: MVM’ler toplam hesabın %90+‘ı → crossbar doğal hızlandırıcı.
Vizyon: Transformer Mimarisinin Ötesi ve SIDRA
Transformer bugün kraldı, ama sonsuz değil. Sıradaki adımlar:
- Y1 (bugün): Küçük Transformer inference (GPT-2, BERT-small) Y1’e sığar. Edge kullanım (akıllı asistan, çeviri).
- Y3 (2027): GPT-3-class model (175B) Y3’te çoklu-çip inference. Düşük-güç laptop/data-center inference.
- Y10 (2029): Transformer + sparse mixture-of-experts + online learning. Beyin-uyumlu enerji.
- Y100 (2031+): Transformer sonrası mimariler — State-Space Models (Mamba), Linear Attention, Mixture of Agents. SIDRA MVM-merkezli → çoğu için doğal uyar.
- Y1000 (uzun vade): Nöromorfik-Transformer hibrit — spike-based Transformer, %1 aktivite. Beyin ölçeğinde continuous learning.
Türkiye için stratejik şans: ABD + Çin Transformer’da lider — yetiştik ama önde değiliz. Ama Transformer sonrası mimariler yeni kategori. SIDRA’nın analog + online learning altyapısı bu geçişte erken ayak izi sağlar. Türkiye ilk “yerli AI mimarisi” geliştirme fırsatını bu kavşakta yakalayabilir.
Beklenmedik gelecek: Emergent meaning neurons. Büyük dil modellerinde belirli nöron kümeleri belirli kavramları (aşk, sayı, Türkiye, Fırat nehri) kodlar. Bu “kavramsal bellek” explicit olarak donanıma haritalanabilir. SIDRA Y100’de interpretable AI crossbar — hangi crossbar hangi kavramı saklıyor görülebilir. Önce güvenlik/explainability için kritik, sonra yeni AI mimari türü.
Daha İleri
- Bir sonraki bölüm: 3.6 — Geriye Yayılım (Backprop)
- Önceki: 3.4 — Beynin Enerji Verimliliği
- McCulloch-Pitts: A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophys. 1943.
- Rosenblatt perceptron: F. Rosenblatt, The perceptron: a probabilistic model…, Psych. Rev. 1958.
- Minsky-Papert kritiği: Perceptrons: An Introduction to Computational Geometry, 1969.
- Universal approximation: Cybenko, Approximation by superpositions of a sigmoidal function, 1989.
- Transformer: Vaswani et al., Attention is all you need, NeurIPS 2017.
- GPT-3: Brown et al., Language models are few-shot learners, NeurIPS 2020.
- State Space Models (Transformer sonrası): Gu & Dao, Mamba: Linear-time sequence modeling…, 2023.