🧠 Modül 3 · Biyolojiden Algoritmaya · Bölüm 3.5 · 15 dk okuma

Yapay Nörondan Transformer'a

y = f(Wx+b) tek atomu — 80 yıllık AI tarihinin tamamı.

Bu bölümde öğreneceklerin

  • McCulloch-Pitts nöronu → perceptron → MLP → CNN → Transformer zincirini kronolojik olarak say
  • Tek bir yapay nöronun matematiğini (y = f(Wx+b)) ve aktivasyon fonksiyonlarını (ReLU, sigmoid, GELU) yaz
  • Tek perceptron'un XOR'u neden çözemediğini ve derinliğin ne kattığını açıkla
  • Self-attention'ın softmax(QK^T/√d)V formülünü ve multi-head'i özetle
  • Bir transformer katmanının SIDRA crossbar'a nasıl haritalandığını göster

Açılış: 80 Yıl, Tek Denklem

1943’te McCulloch ve Pitts, A Logical Calculus of the Ideas Immanent in Nervous Activity makalesinde biyolojik nöronu tek bir mantıksal birime indirdi. 2017’de Vaswani ve arkadaşları Attention is All You Need ile ChatGPT’yi mümkün kılan Transformer mimarisini yayımladı.

Arada 74 yıl, binlerce makale, milyonlarca mühendis-saat var. Ama mimariler değişirken temel matematiksel atom aynı kaldı:

y=f(Wx+b)y = f(\mathbf{W}\mathbf{x} + \mathbf{b})

Çarp, topla, eş (aktivasyon), tekrarla. Tüm modern AI — görüntü tanıma, dil modeli, protein katlama, oyun oynama — bu tek cümlenin sayısız üst üste bindirilmesidir.

SIDRA için kritik: bu formülün çekirdeği Wx\mathbf{W}\mathbf{x} — bir matris-vektör çarpımı (MVM). Crossbar tam olarak bunu yapmak için tasarlanmış (Bölüm 1.5’te gördük: Ohm + Kirchhoff = MVM). Yani tüm AI mimarilerinin kalbi SIDRA donanımına doğal olarak uyar.

Bu bölüm o 74 yılı hızlıca özetler, her mimarinin hangi sorunu çözdüğünü gösterir, ve Transformer’ın SIDRA crossbar’ına neden ideal olduğunu anlatır.

Sezgi: 9 Adımda Modern AI

AI mimarilerinin evrimi dokuz büyük adımda:

YılModelAna katkı
1943McCulloch-Pitts nöronuİlk matematiksel nöron modeli. Binary eşikli.
1949Hebb öğrenmesiWeightler nasıl öğrenilir (3.3’te)
1958Rosenblatt perceptronTek-katmanlı, eğitilebilir sınıflayıcı
1969Minsky & Papert XOR eleştirisiPerceptron XOR’u çözemez → AI kışı başlar
1986Rumelhart-Hinton-Williams backpropÇoklu-katmanlı eğitim mümkün (3.6’da)
1989-1998LeCun CNN (LeNet)Görüntü için konvolüsyon + pooling
1997Hochreiter-Schmidhuber LSTMUzun-bağımlı dizi (sekans) öğrenimi
2012Krizhevsky AlexNetGPU + derin CNN → modern AI çağı başlar
2017Vaswani TransformerSelf-attention → GPT, BERT, vs.

Her adım bir önceki sınırlamanın çözümüdür:

  • Perceptron: XOR’u çözemezdi → MLP gelir.
  • MLP: görüntüde 28×28 piksel fazla parametre → CNN (paylaşılan ağırlık).
  • CNN: ardışık veride iyi değil → RNN/LSTM.
  • LSTM: uzun diziler zor (gradient vanishing) → Attention.
  • Attention: konum bilgisi yok → Transformer (positional encoding).

Şimdi tüm modern devler (GPT, Claude, Gemini, LLaMA) Transformer varyantıdır. Altındaki matematik: y=f(Wx+b)y = f(\mathbf{W}\mathbf{x} + \mathbf{b}) + self-attention.

Formalizm: Tek Nörondan Transformer'a

L1 · Başlangıç

Tek yapay nöron (perceptron):

y=f(iwixi+b)=f(wx+b)y = f\left(\sum_i w_i x_i + b\right) = f(\mathbf{w}^\top \mathbf{x} + b)
  • x\mathbf{x} — giriş vektörü (özellikler)
  • w\mathbf{w} — ağırlık vektörü (öğrenilir)
  • bb — bias
  • ff — aktivasyon fonksiyonu

Aktivasyon fonksiyonları:

AdFormülNe işe yarar
Stepf(z)=1f(z) = 1 eğer z>0z > 0, else 0Orijinal Rosenblatt perceptronu
Sigmoidf(z)=1/(1+ez)f(z) = 1/(1+e^{-z})1940-2000 standartı, gradient vanishing var
Tanhf(z)=(ezez)/(ez+ez)f(z) = (e^z - e^{-z})/(e^z + e^{-z})Sigmoid’in merkezlenmiş versiyonu
ReLUf(z)=max(0,z)f(z) = \max(0, z)2012’den beri derin ağ standartı
GELUf(z)=zΦ(z)f(z) = z \cdot \Phi(z)Transformer’da yaygın

Tek nöron sınıflayıcı yapar: f=f = step ise “0 veya 1” çıkışı, ikili sınıflama. Rosenblatt bunu 1958’de kanıtladı.

L2 · Tam

Çok-Katmanlı Perceptron (MLP):

h1=f(W1x+b1),h2=f(W2h1+b2),,y=WLhL1+bL\mathbf{h}_1 = f(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1), \quad \mathbf{h}_2 = f(\mathbf{W}_2 \mathbf{h}_1 + \mathbf{b}_2), \quad \ldots, \quad \mathbf{y} = \mathbf{W}_L \mathbf{h}_{L-1} + \mathbf{b}_L

Her katman bir MVM + aktivasyon. Universal approximation teoremi (Cybenko 1989, Hornik 1991): yeterince geniş 2-katmanlı MLP herhangi bir sürekli fonksiyonu yaklaşık olarak öğrenebilir. Derinlik pratiktir (daha az parametreyle karmaşık fonksiyon) ama teorik olarak 2 katman yeterli.

XOR problemi:

Tek perceptron şu fonksiyonu çözemez:

x1x_1x2x_2XOR
000
011
101
110

Çünkü doğrusal ayırıcı mümkün değil (2D’de XOR noktaları doğrusal olarak ayrılmaz). 2-katmanlı MLP çözer: gizli katman hiperyüzeyde XOR’u bükebilir.

Konvolüsyon (CNN):

Görüntü sınıflamada MLP 28×28 = 784 giriş için çok fazla parametre yakalar. CNN çözümü: paylaşılan ağırlık + yerel bağlantı. 3×3 filtre her konumda aynı ağırlıkları kullanır.

hi,j=f(m,nwm,nxi+m,j+n)h_{i,j} = f\left(\sum_{m,n} w_{m,n} \cdot x_{i+m, j+n}\right)

Hâlâ MVM. Ama ağırlık tekrarı var. SIDRA’da: crossbar’ın bir kısmı bu filtreyi depolar.

Recurrent (RNN):

Zaman serilerini işlemek için, çıkış bir sonraki adıma beslenir:

ht=f(Wxxt+Whht1+b)\mathbf{h}_t = f(\mathbf{W}_x \mathbf{x}_t + \mathbf{W}_h \mathbf{h}_{t-1} + \mathbf{b})

Sorun: uzun dizilerde Wh\mathbf{W}_h‘nin tekrar çarpımı → gradient vanishes (küçük özdeğerlerde 0’a gider) veya explodes. LSTM (1997) kapılı bellek ile bunu kısmen çözdü ama yine de ~100 timestep sonrası zor.

L3 · Derin

Self-Attention ve Transformer:

Transformer her zaman adımını tüm diğer zaman adımlarına doğrudan bağlar. Mekanizma:

Her giriş vektörü xi\mathbf{x}_i‘dan üç vektör türetilir:

  • Query qi=WQxi\mathbf{q}_i = \mathbf{W}_Q \mathbf{x}_i
  • Key ki=WKxi\mathbf{k}_i = \mathbf{W}_K \mathbf{x}_i
  • Value vi=WVxi\mathbf{v}_i = \mathbf{W}_V \mathbf{x}_i

Attention skoru: skorij=qikj/d\text{skor}_{ij} = \mathbf{q}_i^\top \mathbf{k}_j / \sqrt{d} (normalleştirilmiş iç çarpım).

Softmax ile normalleştirilir: aij=softmaxj(skorij)a_{ij} = \text{softmax}_j(\text{skor}_{ij}).

Çıkış: yi=jaijvj\mathbf{y}_i = \sum_j a_{ij} \mathbf{v}_j.

Vektörleşmiş hâli:

Attention(Q,K,V)=softmax(QKd)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) V

Multi-Head Attention: Bu süreci hh farklı kafa paralel yapar, sonuçlar birleştirilir. Her kafa farklı ilişki örüntüsü öğrenir (sözdizimi, semantik, konum vs).

Transformer katmanı:

Output=LayerNorm(x+MultiHead(x))LayerNorm(+FFN())\text{Output} = \text{LayerNorm}(\mathbf{x} + \text{MultiHead}(\mathbf{x})) \to \text{LayerNorm}(\ldots + \text{FFN}(\ldots))

Feed-forward network (FFN): iki-katmanlı MLP. Her transformer bloku: attention + FFN + residual + layer norm.

GPT-class modeller: 96-128 transformer bloku üst üste, d12Kd \approx 12K boyut, ~175 milyar parametre (GPT-3). Eğitim 3.14 × 10²³ FLOP (~1287 MWh).

Tüm bu matematiğin SIDRA açısından önemi:

Transformer’daki her işlem ya bir MVM (WQ,WK,WV,WO,FFN1,FFN2\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V, \mathbf{W}_O, \text{FFN}_1, \text{FFN}_2) ya da softmax/layer-norm (küçük pay). MVM’ler toplam hesabın %90+‘ı. SIDRA crossbar’ı MVM için doğmuştur → Transformer SIDRA için doğmuştur.

SIDRA Y1’de bir GPT-2 inference’ı:

  • GPT-2 small (124M parametre). Her forward pass ~250 MFLOPS.
  • Y1: ~30 TOPS analog → 1 inference ~10 µs.
  • Batch 32 GPT-2 inference: ~300 µs, 1 mW enerji.
  • Beyinle eşdeğer düşünme maliyeti.

Not: Bu tahmini; gerçek Y1 prototipinde kalibrasyon + overhead ile birkaç ms olur. Ama ölçek doğru.

Deney: Tek Nöron AND, OR, XOR Kapılarını Öğreniyor

Tek perceptron (ff = step, y=1y = 1 if w1x1+w2x2+b>0w_1 x_1 + w_2 x_2 + b > 0, else 0) üç mantık kapısını çözmeye çalışıyor:

AND (x1x2x_1 \wedge x_2):

  • Gerçeklik tablosu: (0,0)→0, (0,1)→0, (1,0)→0, (1,1)→1
  • Ağırlıklar: w1=w2=1w_1 = w_2 = 1, b=1.5b = -1.5çözer

OR (x1x2x_1 \vee x_2):

  • (0,0)→0, (0,1)→1, (1,0)→1, (1,1)→1
  • w1=w2=1w_1 = w_2 = 1, b=0.5b = -0.5çözer

XOR (x1x2x_1 \oplus x_2):

  • (0,0)→0, (0,1)→1, (1,0)→1, (1,1)→0
  • İmkânsız — tek doğrusal ayırıcı yok. 1969 Minsky-Papert.

2-katmanlı MLP XOR’u çözer:

Gizli katman (2 nöron):

  • h1=step(x1+x20.5)h_1 = \text{step}(x_1 + x_2 - 0.5) ≈ OR
  • h2=step(x1+x21.5)h_2 = \text{step}(x_1 + x_2 - 1.5) ≈ AND

Çıkış:

  • y=step(h1h20.5)y = \text{step}(h_1 - h_2 - 0.5) = OR − AND = XOR

SIDRA paraleli:

  • Tek perceptron = 1 crossbar satırı. Y1’de 2 memristör + 1 eşik devresi.
  • 2-katmanlı MLP = 2 crossbar. Her ikisinde eşikli nöron devreleri.
  • GPT-2 = 124M parametre → 124M memristör gerekir. Y1’in ~%30’u sadece GPT-2’yi saklar.
  • GPT-3 = 175B parametre → 417 SIDRA Y1 çipi (pek mümkün değil Y1’de); Y100 tek çipte saklar.

Kısa Sınav

1/6Tek bir yapay nöronun matematiksel formu nedir?

Laboratuvar Görevi

Bir küçük Transformer bloğunu SIDRA crossbar’a haritala.

Veri:

  • Modest model: dmodel=512d_{\text{model}} = 512, dff=2048d_{\text{ff}} = 2048, h=8h = 8 head.
  • Bir transformer bloğu: self-attention + FFN.
  • SIDRA crossbar: 256×256 memristör, 8-bit ağırlık.

Sorular:

(a) Self-attention için kaç farklı ağırlık matrisi var? Boyutları? (b) Her matrisi 256×256 crossbar’larla kaplamak için kaç crossbar gerekir? (c) FFN için kaç crossbar gerekir? (d) Bir transformer blokunun toplamda kaç crossbar’a ihtiyacı var? (e) SIDRA Y1 419M hücreye sahip = 419M / (256×256) ≈ 6400 crossbar. 1 transformer bloku kaç katman derinlik kapsayabilir?

Çözümler

(a) 4 matris: WQ,WK,WV,WOW_Q, W_K, W_V, W_O, her biri 512×512. Ayrıca FFN için 2 matris: W1W_1 (512×2048), W2W_2 (2048×512).

(b) 512/256 = 2 × 2 = 4 crossbar per attention matrix. 4 matris × 4 = 16 crossbar attention için.

(c) FFN: W1W_1 = 512×2048 → (2 × 8) = 16 crossbar. W2W_2 = 2048×512 → 16 crossbar. Toplam 32 crossbar FFN için.

(d) 16 + 32 = 48 crossbar / transformer block.

(e) 6400 / 48 ≈ 133 transformer blokları. GPT-3 small (125M) 12 block, GPT-3 175B 96 block kullanır. SIDRA Y1 ~GPT-3 small ölçekli modeli tek çipte saklayabilir, 96-block GPT-3 için ~Y3 veya Y10 gerekir.

Not: Bu sadece parametre depolama. Eğitilmiş modeli Y1’e yükleme ve inference yapmak uygundur. Eğitim hâlâ GPU’da.

Özet Kart

  • Tek nöron: y=f(wx+b)y = f(\mathbf{w}^\top \mathbf{x} + b). 80 yıllık tüm AI’nın atomu.
  • Evrim: McCulloch-Pitts 1943 → Perceptron 1958 → MLP (backprop 1986) → CNN (1989) → LSTM (1997) → AlexNet (2012) → Transformer (2017).
  • XOR limiti: tek perceptron doğrusal ayırıcıdır; MLP (gizli katman) XOR’u çözer.
  • Aktivasyonlar: step, sigmoid, tanh, ReLU (modern standart), GELU (Transformer’da).
  • Self-attention: softmax(QK^T/√d)V. Her token diğer tüm tokenlerle doğrudan ilişkilenir.
  • Transformer bloğu: MultiHead(Attention) + FFN + residual + LayerNorm.
  • SIDRA uyumu: MVM’ler toplam hesabın %90+‘ı → crossbar doğal hızlandırıcı.

Vizyon: Transformer Mimarisinin Ötesi ve SIDRA

Transformer bugün kraldı, ama sonsuz değil. Sıradaki adımlar:

  • Y1 (bugün): Küçük Transformer inference (GPT-2, BERT-small) Y1’e sığar. Edge kullanım (akıllı asistan, çeviri).
  • Y3 (2027): GPT-3-class model (175B) Y3’te çoklu-çip inference. Düşük-güç laptop/data-center inference.
  • Y10 (2029): Transformer + sparse mixture-of-experts + online learning. Beyin-uyumlu enerji.
  • Y100 (2031+): Transformer sonrası mimariler — State-Space Models (Mamba), Linear Attention, Mixture of Agents. SIDRA MVM-merkezli → çoğu için doğal uyar.
  • Y1000 (uzun vade): Nöromorfik-Transformer hibrit — spike-based Transformer, %1 aktivite. Beyin ölçeğinde continuous learning.

Türkiye için stratejik şans: ABD + Çin Transformer’da lider — yetiştik ama önde değiliz. Ama Transformer sonrası mimariler yeni kategori. SIDRA’nın analog + online learning altyapısı bu geçişte erken ayak izi sağlar. Türkiye ilk “yerli AI mimarisi” geliştirme fırsatını bu kavşakta yakalayabilir.

Beklenmedik gelecek: Emergent meaning neurons. Büyük dil modellerinde belirli nöron kümeleri belirli kavramları (aşk, sayı, Türkiye, Fırat nehri) kodlar. Bu “kavramsal bellek” explicit olarak donanıma haritalanabilir. SIDRA Y100’de interpretable AI crossbar — hangi crossbar hangi kavramı saklıyor görülebilir. Önce güvenlik/explainability için kritik, sonra yeni AI mimari türü.

Daha İleri

  • Bir sonraki bölüm: 3.6 — Geriye Yayılım (Backprop)
  • Önceki: 3.4 — Beynin Enerji Verimliliği
  • McCulloch-Pitts: A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophys. 1943.
  • Rosenblatt perceptron: F. Rosenblatt, The perceptron: a probabilistic model…, Psych. Rev. 1958.
  • Minsky-Papert kritiği: Perceptrons: An Introduction to Computational Geometry, 1969.
  • Universal approximation: Cybenko, Approximation by superpositions of a sigmoidal function, 1989.
  • Transformer: Vaswani et al., Attention is all you need, NeurIPS 2017.
  • GPT-3: Brown et al., Language models are few-shot learners, NeurIPS 2020.
  • State Space Models (Transformer sonrası): Gu & Dao, Mamba: Linear-time sequence modeling…, 2023.