🧠 Modül 3 · Biyolojiden Algoritmaya · Bölüm 3.3 · 12 dk okuma

Hebbian Öğrenme

Birlikte ateşlenenler bağlanır — öğrenmenin tek satırlık matematiği.

Önkoşul

3.2 — Sinaps

Bu bölümde öğreneceklerin

Hebb'in 1949 ifadesini ve modern tek-satırlık formülasyonunu hatırla
Hebbian güncelleme kuralı $\Delta w = \eta \cdot x \cdot y$ ile bir korelasyon nasıl yakalanır göster
Saf Hebbian'ın ağırlık patlamasını neden yarattığını ve Oja kuralının bunu nasıl çözdüğünü açıkla
BCM teorisinin değişken eşik mantığını ve neden gerekli olduğunu söyle
Hebbian güncellemenin SIDRA crossbar'ında nasıl donanımsal olarak uygulanabileceğini taslakla

Açılış: 1949'dan Beri Tek Cümle

Donald Hebb, 1949’da The Organization of Behavior kitabında öğrenmenin biyolojik temeli için tek bir hipotez yazdı:

“When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased.”

Türkçesi: “A hücresinin aksonu, B hücresini ateşlemekte tekrar tekrar rol oynuyorsa, A’nın B’yi ateşleme verimliliği artar.”

Carla Shatz bunu daha sonra dört kelimeye sıkıştırdı: “Cells that fire together, wire together.”

Bu cümle, modern AI’nın matematik temelidir. Backprop bu kuralın türevi; Hopfield ağı bu kuralla çalışır; STDP bu kuralın spike-zaman versiyonudur; SIDRA’nın gelecek “online learning” hedefi bu kuralın crossbar’da uygulanmasıdır.

77 yıl, dört kelime. Bu bölüm cümlenin matematik halinin ve donanım uygulanabilirliğinin detayını veriyor.

Sezgi: Korelasyon = Ağırlık Artışı

Hebbian kural en basit haliyle:

\Delta w = \eta \cdot x \cdot y

$w$ — sinaps ağırlığı (presinaptik nörondan postsinaptiğe)
$x$ — presinaptik aktivite (oran veya 0/1)
$y$ — postsinaptik aktivite
$\eta$ — öğrenme hızı (~0.01-0.1)

Neden bu işe yarar? $x$ ve $y$ aynı anda yüksekse $\Delta w > 0$ → bağlantı güçlenir. Aynı anda düşükse $\Delta w \approx 0$ → değişmez. Sinaps, iki nöron arasındaki istatistiksel korelasyonun ölçüsü olur.

Somut örnek: Bir köpek görürken (girişler $x$ ) “kuyruk salla” davranışı (çıkış $y$ ) eşzamanlı tetikleniyorsa, “köpek görme” → “kuyruk salla” sinapsı güçlenir. Bir sonraki köpek görüldüğünde davranış otomatikleşmeye başlar. Klasik koşullanma (Pavlov 1897, Hebb 1949’dan önce) bu kuralın davranışsal versiyonudur.

Tehlike: Saf Hebbian kararsızdır. $w$ sürekli artar, hiçbir şey azaltmaz → sinaps “patlar” (saturation). Beyin bunu çoklu mekanizmayla çözer:

Sinaptik scaling (bütün sinapsları normalize et)
LTD (anti-Hebbian güncelleme)
BCM (eşik dinamiği)
STDP (zaman-asimetrisi)

Modern yapay sinir ağı eğitiminde bu sorun ağırlık decay + batch normalization + Adam optimizer ile çözülür. Aynı problem, farklı çözüm.

Formalizm: Saf Hebbian → Oja → BCM

L1 · Başlangıç

Vektör formu:

Bir nöronun $N$ sinapsı var, ağırlık vektörü $\mathbf{w} \in \mathbb{R}^N$ . Giriş vektörü $\mathbf{x}$ , çıkış $y = \mathbf{w}^\top \mathbf{x}$ .

Hebbian güncelleme:

\Delta \mathbf{w} = \eta \cdot y \cdot \mathbf{x} = \eta (\mathbf{w}^\top \mathbf{x}) \mathbf{x}

Beklenen değer (rastgele girişler için):

\langle \Delta \mathbf{w} \rangle = \eta \cdot \langle \mathbf{x} \mathbf{x}^\top \rangle \mathbf{w} = \eta \cdot \mathbf{C} \mathbf{w}

$\mathbf{C}$ — giriş kovaryans matrisi.

Bu, iteratif güç yöntemine denktir → uzun vadede $\mathbf{w}$ , $\mathbf{C}$ ‘nin en büyük özdeğerli özvektörüne yakınsar. Yani Hebbian, PCA (temel bileşen analizi) ilk bileşenini öğrenir.

L2 · Tam

Oja kuralı (1982) — saf Hebbian’a normalleştirme ekler:

\Delta \mathbf{w} = \eta \cdot y \cdot (\mathbf{x} - y \mathbf{w})

Ek terim $-y^2 \mathbf{w}$ , ağırlığı $\|\mathbf{w}\| = 1$ ‘e doğru çeker. Sonuç: ağırlık patlamadan, PCA’nın ilk özvektörü öğrenilir.

Genişletilmiş Oja (Sanger 1989): $K$ tane çıkış nöronu paralel kullanırsa, ilk $K$ özvektör öğrenilir → tam PCA. Online, sırayla, etiket olmadan.

Anti-Hebbian:

\Delta w = -\eta \cdot x \cdot y

Korelasyonu zayıflatır. Genelde inhibitor sinapslar veya whitening (girişleri dekorelelemek) için kullanılır.

L3 · Derin

BCM teorisi (Bienenstock-Cooper-Munro 1982):

Saf Hebbian’ın anlamlı bir gelişimi. Postsinaptik aktiviteye bağlı değişken eşik $\theta_M$ :

\Delta w = \eta \cdot x \cdot y \cdot (y - \theta_M)

$y > \theta_M$ → LTP (ağırlık ↑)
$y < \theta_M$ → LTD (ağırlık ↓)
$\theta_M$ kendisi de zamanla yavaş değişir: $\theta_M \propto \langle y^2 \rangle$ (uzun vade ortalama).

Sonuç:

Aşırı aktif nöron → $\theta_M$ yükselir → daha az LTP, daha çok LTD → “kendi kendini sönümler”.
Az aktif → $\theta_M$ düşer → tetiklenme kolaylaşır.
Homeostatik denge. Beyin böyle stabil çalışır.

BCM, NMDA + Ca²⁺ kaskadıyla biyolojik olarak desteklenir (3.2’de değindik). Düşük Ca²⁺ → LTD, yüksek Ca²⁺ → LTP, eşik = ortalama Ca²⁺ seviyesi. Bu aynı denklemin biyolojik fiziksel uygulamasıdır.

Eğiticili öğrenmeyle bağlantı:

Hebbian = eğitimsiz (unsupervised). Etiket yok, sadece korelasyon. Eğiticili öğrenme (backprop, 3.6’da) = Hebbian + hata sinyali geri yayınımı. Modern derin öğrenme, biri olmadan diğeriyle yetinir; beyin ikisini birlikte kullanır (kortikal alanlar Hebbian, ödül sinyali dopamin ile bonus).

Donanım uygulanabilirliği — neden SIDRA bunu önemser:

Hebbian güncelleme yereldir: sadece pre-aktivite + post-aktivite + ağırlık. Backprop globaldir: gradyan zinciri tüm ağı geri yürür. Donanımda yerel kuralı uygulamak çok daha kolay — özellikle analog crossbar’da. Bir memristör hücresinde:

\Delta G \propto V_{\text{pre}} \cdot V_{\text{post}} \cdot \Delta t

Voltaj çakışması filaman büyütür/küçültür → Hebbian doğal olarak ortaya çıkar. SIDRA Y10’da online Hebbian + Y100’de online STDP hedefli.

Deney: 2-Girişli Bir Nöron Korelasyon Öğrenir

İki girişli ( $x_1, x_2$ ) tek nöron. Çıkış $y = w_1 x_1 + w_2 x_2$ .

Eğitim verisi: 1000 örnek, $(x_1, x_2)$ çiftleri normal dağılımdan geliyor — ama korelasyonlu: $x_2 = 0.8 x_1 + 0.6 \xi$ ( $\xi$ bağımsız gürültü). Yani veri ana ekseni $(1, 0.8)$ doğrultusunda.

Saf Hebbian ( $\eta = 0.01$ , $\mathbf{w}_0 = (0.1, 0.1)$ ):

İterasyon	$\mathbf{w}$	$\\|\mathbf{w}\\|$
0	(0.10, 0.10)	0.14
100	(0.42, 0.34)	0.54
500	(3.8, 3.0)	4.85
1000	(62, 49)	79

Patlıyor — ama oran $w_2/w_1 \approx 0.8$ doğru, ana eksene oturuyor.

Oja kuralı:

İterasyon	$\mathbf{w}$	$\\|\mathbf{w}\\|$
0	(0.10, 0.10)	0.14
100	(0.65, 0.51)	0.83
500	(0.78, 0.62)	1.00
1000	(0.78, 0.63)	1.00

Yakınsar. $\mathbf{w} \approx (0.78, 0.63)$ = veri kovaryansının ilk özvektörü.

Sonuç: Hebbian + normalleştirme = otomatik boyut indirgeme (PCA). Beyin görsel kortekste benzer bir şey yapar — V1 nöronları edge detektörlerine yakınsar (Olshausen & Field 1996, sparse coding).

SIDRA paraleli: Bir crossbar’da 2 girişli 1 çıkış nöron = 2 memristör. Yerel Hebbian güncelleme → veri ana eksenini analog donanımda öğren. Bu, online unsupervised feature learning’in çekirdeği.

Kısa Sınav

1/6Hebb'in 1949 hipotezinin tek-satırlık modern formu nedir?

Laboratuvar Görevi

SIDRA crossbar’ında Hebbian online learning bütçesi.

Veri:

256 × 256 crossbar, toplam 65,536 memristör
Her hücre 256 seviye (8 bit) iletkenlik
SET enerjisi: ~10 pJ; tipik update Δ → ~1 pJ (kısmi SET)
Y1 saat hızı: 100 MHz (10 ns/cycle)
TDP bütçesi: 3 W

Sorular:

(a) Bir crossbar’da tüm 65K hücreyi aynı anda Hebbian güncellersek enerji ne olur? (b) TDP 3 W → kaç crossbar simültane güncellenebilir? (c) Saniye başına kaç güncelleme olur (toplam crossbar update / sn)? (d) Beynin LTP/LTD oranı: ortalama bir sinaps dakikada bir güncellenir (~17 mHz). SIDRA’nın Y1’de ulaşabileceği güncelleme oranı bu oranın kaç katı? (e) Y1’de yerel Hebbian (eğitimsiz öğrenme) ne kadar büyük bir özellik haritası öğrenebilir?

Çözümler

(a) 65,536 × 1 pJ = 65.5 nJ (bir saat darbesinde, paralel).

(b) 3 W = 3 J/s. Saat darbesi 10 ns → güç = 65.5 nJ / 10 ns = 6.55 W. TDP’yi aşar (bir crossbar bile). Pratikte simültane güncellenebilen hücre sayısı sınırlı: 30K hücre/cycle (TDP içinde), veya tüm hücre ama 50% düşük frekans.

(c) Aktivite faktörü α = 0.5 alıp 1 crossbar’ı 100 MHz’in yarısında çalıştırırsak: 65,536 × 5×10⁷ = 3.3 × 10¹² update/s.

(d) Beyin: 10¹⁴ sinaps × 17 × 10⁻³ Hz = 1.7 × 10¹² update/s. SIDRA Y1 single crossbar: 3.3 × 10¹² → beyin sinaps update hızının ~2 katı (ama sadece 65K sinaps üzerinde, 10⁹ kez daha az kapasite).

(e) Yerel Hebbian + 65K paralel = 65K boyutlu bir feature haritası. Bu, 256×256 imge piksellerinde (modest çözünürlük) PCA seviyesi öğrenme için yeterli. SIDRA Y1, MNIST gibi 28×28=784 piksel veri setinde pratikte unsupervised feature learning yapabilir. Bu Y3 prototip hedefi.

Özet Kart

Hebb 1949: “Birlikte ateşlenenler bağlanır” — Δw = η·x·y.
Saf Hebbian: kararsız (w patlar). Çözüm: normalleştirme (Oja) veya değişken eşik (BCM).
Oja kuralı: Δw = η·y·(x − y·w). Yakınsar; PCA ilk özvektörü.
BCM: Δw = η·x·y·(y − θ_M); θ_M ∝ ⟨y²⟩. Homeostatik. Beyin modeli.
PCA bağlantısı: Hebbian = veri kovaryansının iteratif güç metodu.
Yerellik: Sadece pre+post bilgisine ihtiyaç → analog donanıma çok uygun.
SIDRA: ΔG ∝ V_pre · V_post · Δt — memristör donanımında Hebbian otomatiktir.

Vizyon: Online Öğrenen SIDRA

Bugünün GPU’ları batch eğitimi yapar — veri merkezi, GB’lar, MWh’ler. Beyin online öğrenir — her an, sürekli, küçük adımlarla. Bu fark Y100’ün asıl iddiası:

Y1 (bugün): Inference odaklı. Eğitim dış GPU’da, ağırlıklar wafer’a yazılır. Hebbian uygulamak teknik mümkün ama prototip değil.
Y3 (2027): Tek crossbar üzerinde yerel Hebbian prototipi. Küçük unsupervised feature learning (MNIST, CIFAR-10).
Y10 (2029): Çoklu crossbar arası BCM/Oja koordinasyonu. Online sınıflandırma, edge AI senaryoları (akıllı kamera, sensör sınıflandırması).
Y100 (2031+): STDP + reinforcement learning entegrasyonu. Beyin-tipi sürekli öğrenme, lifelong learning. GPT-tarzı sistemlerin enerji 1000× düşer.
Y1000 (uzun vade): Bio-uyumlu organik sinapslarda Hebbian → beyin-bağlantılı eğitim. İmplant okur, sentetik nöron öğrenir.

Türkiye için stratejik fark: Eğitim → veri merkezi → enerji → karbon ayak izi yarışında geride duruyoruz. Online öğrenen donanımda iddialı olabiliriz, çünkü oyun değişiyor. Yerel öğrenme + düşük enerji = farklı kategori. SIDRA’nın “Türkiye’nin AI yolundaki köprüsü” olma iddiası tam buradan geliyor.

Beklenmedik gelecek: Federated SIDRA cluster. 100 SIDRA çipi farklı şehirlerde, hepsi yerel Hebbian ile öğreniyor, ağırlıklar federated learning ile paylaşılıyor. Veri merkezi yok. Türkiye-içi dağıtık AI altyapısı. 2030+ ufku.

Daha İleri

Bir sonraki bölüm: 3.4 — Beynin Enerji Verimliliği
Önceki: 3.2 — Sinaps
Hebb orijinal: D. O. Hebb, The Organization of Behavior (1949).
Oja kuralı: Erkki Oja, A simplified neuron model as a principal component analyzer, J. Math. Biol. 1982.
BCM: Bienenstock, Cooper, Munro, Theory for the development of neuron selectivity, J. Neurosci. 1982.
Sparse coding (V1): Olshausen & Field, Emergence of simple-cell receptive field properties…, Nature 1996.
Hebbian donanım: Pedretti & Ielmini, In-memory computing with resistive switching devices, Nature Electronics 2018.

Önkoşul

Bu bölümde öğreneceklerin

🪝 Açılış: 1949'dan Beri Tek Cümle

🧭 Sezgi: Korelasyon = Ağırlık Artışı

📐 Formalizm: Saf Hebbian → Oja → BCM

🧪 Deney: 2-Girişli Bir Nöron Korelasyon Öğrenir

📝 Kısa Sınav

🛠️ Laboratuvar Görevi

🗂️ Özet Kart

🔮 Vizyon: Online Öğrenen SIDRA

📚 Daha İleri