🧠 Modül 3 · Biyolojiden Algoritmaya · Bölüm 3.8 · 13 dk okuma

Spike-Timing-Dependent Plasticity (STDP)

20 milisaniyenin matematiği — Hebb'in zaman-asimetrik halefi.

Önkoşul

Bu bölümde öğreneceklerin

STDP öğrenme penceresinin asimetrik şeklini ($\Delta t > 0$ → LTP, $< 0$ → LTD) çiz
Bi & Poo (1998) deneyini ve τ ≈ 20 ms zaman sabitini hatırla
STDP'yi bir denklem olarak yaz: $\Delta w = A_+ e^{-\Delta t / \tau_+}$ veya $-A_- e^{\Delta t / \tau_-}$
STDP'nin biyolojik motivasyonunu (NMDA + Ca²⁺ kaskad asimetrisi) açıkla
STDP'yi SIDRA memristöründe nasıl uygulayacağını (zaman-kodlu voltaj puls çiftleri) taslakla

Açılış: 1998'in 20 Milisaniyesi

1998’de Bi ve Poo, Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type makalesinde, hippokampal nöron çiftlerinde kesin bir zamanlama kuralı keşfetti:

Eğer presinaptik spike, postsinaptik spike’tan ÖNCE 20 ms içinde geldiyse: sinaps güçlenir (LTP).
Eğer presinaptik spike, postsinaptik spike’tan SONRA 20 ms içinde geldiyse: sinaps zayıflar (LTD).
Aralık 50 ms’den fazlaysa: değişim yok.

Bu kural, Hebbian öğrenmenin zaman-asimetrik versiyonu: “birlikte ateşlenenler bağlanır” değil, “önce ateşlenen sebep sayılır”.

Sezgisel: Eğer A nöronu, B nöronunu ateşlemekte zaman olarak rol oynuyorsa (önce A, sonra B), o zaman A→B bağlantısı güçlenmeli. Bu nedensellik öğrenmesinin biyolojik temeli.

40 yıl sonra: Modern reinforcement learning, dünya modelleri, video tahmin sistemleri — hepsi STDP varyantlarını araştırıyor. SIDRA Y100 hedefi: STDP’yi memristör donanımında doğal olarak çalıştırmak.

Sezgi: Asimetrik Öğrenme Penceresi

STDP’nin asimetrik öğrenme penceresi şöyle görünür:

   Δw
    ↑
+A+ |    ●
    |   ●
    |  ●
    | ●●
    |●
────┼──────●●●●● → Δt (post − pre, ms)
    |        ●
    |          ●
    |            ●
    |              ●
-A- |________________
    -50  -20   0   +20  +50

Sağ taraf ( $\Delta t = t_{\text{post}} - t_{\text{pre}} > 0$ ): pre → post sırası → LTP.
Sol taraf ( $\Delta t < 0$ ): post → pre sırası → LTD.
Pencere ölçeği $\tau \approx 20$ ms: insan beyni için tipik.

Tepe değerleri:

LTP tepe: $\Delta w \approx +A_+ \approx +0.5$ (normalleştirilmiş ağırlık birimi).
LTD tepe: $\Delta w \approx -A_- \approx -0.5$ (genelde LTP’den biraz büyük).

Neden asimetrik? Çünkü neden-sonuç önemli. Eğer A her zaman B’den sonra ateşleniyorsa, A B’nin sebebi olamaz → bağlantı zayıflasın. Eğer A her zaman B’den önce ateşleniyorsa, A B’yi tetikliyor olabilir → bağlantı güçlensin. STDP, beyne nedenselliği öğretir.

Hebbian ile farkı: Saf Hebbian zaman-bağımsızdır ( $\Delta w \propto x \cdot y$ , sıra önemsiz). STDP zaman-bağımlıdır. Hebbian = istatistiksel korelasyon; STDP = nedensel sıralı bağıntı.

Formalizm: STDP Denklemi ve Biyolojik Temeli

L1 · Başlangıç

Standart STDP denklemi:

\Delta w(\Delta t) = \begin{cases} +A_+ \cdot e^{-\Delta t / \tau_+} & \text{eğer } \Delta t > 0 \text{ (pre önce, post sonra)} \\ -A_- \cdot e^{\Delta t / \tau_-} & \text{eğer } \Delta t < 0 \text{ (post önce, pre sonra)} \\ 0 & \text{eğer } \Delta t = 0 \end{cases}

$\Delta t = t_{\text{post}} - t_{\text{pre}}$ (ms)
$A_+, A_-$ — tepe büyüklükleri (genelde 0.001-0.01 arası, normalleştirilmiş)
$\tau_+, \tau_-$ — zaman sabitleri (~10-50 ms)

Bi & Poo verileri:

$\tau_+ \approx 17$ ms
$\tau_- \approx 34$ ms (LTD tarafı biraz daha geniş)
Sıklıkla $A_- > A_+$ (LTD baskın → ortalama denge)

L2 · Tam

Biyolojik temel — neden bu pencere?

NMDA reseptörü hatırla (3.2): glutamat + post-depolarizasyon birlikte → Ca²⁺ akar. Ca²⁺ akış miktarı zamanlamaya bağlı:

Pre önce, post sonra ( $\Delta t > 0$ ):

Pre spike → glutamat salınır.
Glutamat NMDA’ya bağlanır.
Birkaç ms sonra post spike → Mg²⁺ tıkacı kalkar.
NMDA açık + glutamat var → Ca²⁺ patlar içeri.
Yüksek + ani Ca²⁺ → CaMKII → AMPA insersiyon → LTP.

Post önce, pre sonra ( $\Delta t < 0$ ):

Post spike → membran depolarize, ama glutamat yok (henüz).
Pre spike → glutamat salınır, NMDA bağlanır.
Ama post depolarizasyon zaten geçmiş → Mg²⁺ tıkalı.
Az Ca²⁺ akar (sadece AMPA), ve bu uzun süreli zayıf akış → kalsineurin → AMPA endositoz → LTD.

Anahtar: Aynı NMDA + Ca²⁺ kaskadı, zamanlamaya göre hem LTP hem LTD üretir. Kapı: $\Delta t$ .

Multi-spike STDP (gerçek):

Tek-pre tek-post deneyleri yukarıdaki şekli verir. Ama gerçek nöronlar dizi halinde ateşler. Multi-spike STDP:

Triplet STDP (Pfister & Gerstner 2006): pre-post-pre veya post-pre-post sıralarına özel davranır.
Voltage-based STDP (Clopath et al. 2010): postsinaptik membran voltajının tamamına bakar, sadece spike’a değil.
Calcium-based STDP (Graupner & Brunel 2012): Ca²⁺ konsantrasyonunu doğrudan modeller.

Bunların hepsi BCM’in (3.3) bir genelleştirilmesi — çoklu zaman ölçeği plastisite.

L3 · Derin

STDP’nin işlevsel sonuçları:

1. Sıralı öğrenme (sequence learning): STDP, zaman-bağlı sıralarına çok uygun. Spiking neural network (SNN) ile dil, müzik, motor öğrenme.

2. Sparse representation: Aktif olmayan post-nöron LTP almaz; STDP doğal olarak sparse coding’e yönlendirir.

3. Stabil olmayan dinamikler: Saf STDP de Hebbian gibi kararsız. Çözüm: synaptic scaling, BCM-tipi normalleştirme, STDP’nin homeostatik versiyonları.

4. Reinforcement learning ile birleşim: Üçüncül faktör (dopamin) STDP’yi modüle eder → R-STDP. Ödül anında STDP açık, yoksa kapalı. Beyinde “iyi davranışı pekiştir” mekanizması.

SIDRA’da STDP uygulaması:

Memristörün $\Delta G \propto V_{\text{pre}} \cdot V_{\text{post}}$ doğal davranışı STDP için kullanılabilir. Ama doğrudan değil — zaman-kodlu voltaj çiftleri gerekir:

Şema (Y10 hedefi):

Pre spike → presinaptik elektroda kısa pozitif puls (örn. +V/2, 10 ns).
Δt sonra post spike → postsinaptik elektroda kısa negatif puls (-V/2, 10 ns).
Eğer çakışırlarsa: memristör görür V_pre - V_post = +V → SET (LTP).
Eğer post önce pre sonraysa: memristör görür -V → RESET (LTD).
Çakışma penceresi puls genişliğine göre ayarlanır → STDP τ taklit edilir.

Bu yaklaşım IBM, Intel ve diğer nöromorfik şirketler tarafından kullanıldı:

IBM TrueNorth (2014): Spike-based ama STDP yok, post-eğitim weights yüklenir.
Intel Loihi (2018): Spike + on-chip STDP. CMOS-based.
SpiNNaker (Manchester): Yazılım-emülasyonlu STDP.
SIDRA Y100 hedefi: Memristör donanımında doğal STDP — dünyanın ilk büyük ölçek analog STDP çipi olabilir.

Online learning için neden STDP?

Backprop gerektiriyor: hata sinyali, geri yayılım, global gradyan. Donanımda zor (3.6).

STDP gerektiriyor: pre + post spike çakışması. Yerel. Memristör hücresinde ek bir devre olmadan çalışır.

Eğitim “yavaş” ama enerji çok düşük ve donanım uygun. Edge AI için ideal.

Deney: 2 Nöron, 5 Spike Çifti, Sinaps Güncelleme

İki nöron arasında bir sinaps. Başlangıç ağırlığı $w_0 = 0.5$ . STDP parametreleri: $A_+ = 0.1, A_- = 0.12, \tau_+ = \tau_- = 20$ ms.

5 spike çifti gözlemleyelim:

Çift	$t_{\text{pre}}$ (ms)	$t_{\text{post}}$ (ms)	$\Delta t$ (ms)	$\Delta w$
1	0	5	+5	$+0.1 e^{-5/20} = +0.078$
2	100	90	-10	$-0.12 e^{-10/20} = -0.073$
3	200	215	+15	$+0.1 e^{-15/20} = +0.047$
4	300	280	-20	$-0.12 e^{-20/20} = -0.044$
5	400	405	+5	$+0.1 e^{-5/20} = +0.078$

Toplam değişim: $0.078 - 0.073 + 0.047 - 0.044 + 0.078 = +0.086$ .

Yeni ağırlık: $w = 0.5 + 0.086 = 0.586$ .

Yorumla: 5 çiftin 3’ü LTP yönünde (pre önce), 2’si LTD yönünde (post önce). Net kazanç → bağlantı güçlendi. Eğer pre-post sürekli pre önce sırasında olsaydı, bağlantı çok daha hızlı güçlenirdi.

SIDRA paraleli:

5 spike çifti = 5 voltaj puls çifti.
Her çift memristör hücresinde Δ ≈ 1 pJ enerji harcar (STDP parametre).
Toplam 5 pJ. Geleneksel SET (~10 pJ) ile karşılaştırınca kısmi update çok daha verimli.
Y100 hedefinde 1 milyon spike çifti / saniye / hücre → 1 µW/hücre. Çok düşük güç edge öğrenmesi.

Kısa Sınav

1/6STDP'nin temel kuralı nedir?

Laboratuvar Görevi

SIDRA Y10 prototipinde STDP-tabanlı sıra öğrenme.

Senaryo: 4 girişli (A, B, C, D), 1 çıkışlı LIF nöron. Her giriş bir SIDRA memristörüne bağlı (4 sinaps). STDP ile öğretmek istediğimiz: A → B → C sırasını tanı (D olunca tetikleme).

Veri:

4 sinaps, başlangıç ağırlık $w_A = w_B = w_C = w_D = 0.25$
STDP: $A_+ = 0.05, A_- = 0.06, \tau = 20$ ms
Eğitim: 100 örnek. %50’sinde A-B-C dizisi (her biri 10 ms aralıkla), sonra post spike. %50’de rastgele D spike + rastgele post spike.
Her sinaps için $\Delta w = \sum$ STDP_kuralı

Sorular:

(a) İlk eğitim örneğinde (A-B-C → post 0/10/20/30 ms): her sinaps için $\Delta t$ ve $\Delta w$ ? (b) 100 örnek sonrası beklenen ağırlık dağılımı? Hangi sinaps en çok güçlenir? (c) Eğitilmiş nöron A-B-C dizisini görünce ne olur? D dizisini görünce? (d) Bu öğrenme backprop ile karşılaştırıldığında: hangi durumda STDP daha iyi? (e) SIDRA Y10’da bir crossbar (256×256) bu STDP çekirdeğini paralel olarak kaç sıra-tanıma örneği üretir?

Çözümler

(a) A: $t_{\text{pre}} = 0, t_{\text{post}} = 30$ , $\Delta t = +30$ ms → $\Delta w = +0.05 e^{-30/20} = +0.0112$ . B: $\Delta t = +20$ → $+0.0184$ . C: $\Delta t = +10$ → $+0.0303$ . D: rastgele → tipik 0 yakın. A en az kazanır (uzakta), C en çok (yakın).

(b) 100 örneğin %50’si A-B-C → C ağırlığı en hızlı büyür (~0.03 × 50 = 1.5 + başlangıç 0.25 = 1.75; pratikte üst sınır 1.0’a saturate). B: ~1.2. A: ~0.9. D: rastgele → ~0.25 civarında durur. Sıralama: C > B > A >> D.

(c) A-B-C diziyi görünce: her bir sinaps spike alır, post-membran kümülatif depolarize → eşik aşılır → post spike. Tanıma! D’yi görünce: tek bir küçük EPSP, eşik aşılmaz → post spike yok. Nöron “A-B-C dedektörü” oldu.

(d) STDP avantajı: eğitim sırasında etiket yok (unsupervised); sadece spike çakışmaları. Backprop hedef etiket gerektirir. STDP ayrıca online (her spike çiftinde günceller), backprop batch. Edge AI için STDP daha uygun.

(e) Bir crossbar 256 sıra × 256 sütun = 256 farklı sıra-tanıma nöronu. Y1 6400 crossbar → 1.64M sıra-tanıma nöronu. Her biri farklı sıra öğrenebilir → devasa unsupervised feature learning. Y10’da 24 katı = 39M.

Özet Kart

STDP kuralı: pre önce post sonra → LTP; tersi → LTD. Asimetrik zaman penceresi $\tau \approx 20$ ms.
Bi & Poo 1998: hippokampal nöronlarda kesin gözlem.
Denklem: $\Delta w = +A_+ e^{-\Delta t / \tau_+}$ for $\Delta t > 0$ , $-A_- e^{\Delta t / \tau_-}$ for $\Delta t < 0$ .
Biyolojik temel: NMDA + Ca²⁺ kaskadı asimetrisi.
Üstünlük: zaman-bağımlı → nedensel ilişki öğrenebilir (yalnızca korelasyon değil).
Reinforcement birleşim: R-STDP (dopamin modülasyonu).
SIDRA: zaman-kodlu pre/post voltaj çiftleri ile memristör donanımında doğal STDP. Y100 hedefi.

Vizyon: STDP-Native Donanım ve SIDRA'nın Beyin İddiası

STDP, beyin-uyumlu öğrenmenin atomudur. SIDRA’nın nihai iddiası bu kavramı donanımda doğrulamak:

Y1 (bugün): STDP yok; ağırlıklar dış GPU’da öğrenilir, çipte sabit. Inference odaklı.
Y3 (2027): Yazılım-emülasyonlu STDP (CMOS kontrol devresi memristöre STDP-uyumlu pulslar gönderir). Prototip ölçek.
Y10 (2029): Donanım-yerel STDP — pre/post voltaj çiftleri doğrudan memristörü STDP kuralıyla günceller. Çok-spike STDP varyantları (triplet, voltage-based).
Y100 (2031+): STDP + R-STDP + sparse spike coding + multi-timescale plasticity hep birden. Beyin-uyumlu online öğrenme, GPT-class model edge’de eğitilebilir.
Y1000 (uzun vade): Bio-uyumlu organik STDP cihazı + beyin implant. Neuralink’in geri-loop AI’i.

Türkiye için stratejik gösterge: Bugün STDP-native ticari çip yok (Intel Loihi, IBM TrueNorth dijital simulasyon). Memristör tabanlı, gerçek analog STDP donanımı açık bir kategori. SIDRA Y10 prototipinde bu kategoriyi kazansak, dünyanın ilk olabiliriz. Türkiye’nin AI’da “olabileceği bir lider” olduğu az kategoriden biri.

Beklenmedik gelecek: Sürekli öğrenen ev robotu. Bir robot eve geliyor, çocukla, kediyle, mutfakla tanışıyor — STDP ile her etkileşimden öğreniyor, internete bağlanmadan, GPU’suz. SIDRA Y100 + STDP bunu yapan ilk ticari sistem olabilir. 2032-2035 ufku, ve Türkiye’nin patent yapma olanağı var.

Modül 3 kapanış: Biyolojiden algoritmaya, sinapstan memristöre, Hebb’den STDP’ye geldik. Modül 4’te (Matematik Cephanesi) bu tüm zincirin altındaki cebir, olasılık ve optimizasyon araçları. Modül 5’te (Çip Donanımı) bunların SIDRA devresinde silikona dökülüşü.

Daha İleri

Bir sonraki modül: 🚧 4.1 · Vektör, Matris, MVM — Yakında
Önceki: 3.7 — Memristör ↔ Sinaps Eşleşmesi
STDP keşif: Bi & Poo, Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type, J. Neurosci. 1998.
Markram önceliği: Markram, Lübke, Frotscher, Sakmann, Regulation of synaptic efficacy by coincidence of postsynaptic APs and EPSPs, Science 1997.
Triplet STDP: Pfister & Gerstner, Triplets of spikes in a model of spike timing-dependent plasticity, J. Neurosci. 2006.
Voltage-based STDP: Clopath et al., Connectivity reflects coding: a model of voltage-based STDP…, Nature Neurosci. 2010.
R-STDP (dopamin): Izhikevich, Solving the distal reward problem through linkage of STDP and dopamine signaling, Cereb. Cortex 2007.
Memristörde STDP: Yu et al., An electronic synapse device based on metal oxide resistive switching memory for neuromorphic computation, IEEE TED 2011.
Loihi nöromorfik chip: Davies et al., Loihi: A neuromorphic manycore processor with on-chip learning, IEEE Micro 2018.

Önkoşul

Bu bölümde öğreneceklerin

🪝 Açılış: 1998'in 20 Milisaniyesi

🧭 Sezgi: Asimetrik Öğrenme Penceresi

📐 Formalizm: STDP Denklemi ve Biyolojik Temeli

🧪 Deney: 2 Nöron, 5 Spike Çifti, Sinaps Güncelleme

📝 Kısa Sınav

🛠️ Laboratuvar Görevi

🗂️ Özet Kart

🔮 Vizyon: STDP-Native Donanım ve SIDRA'nın Beyin İddiası

📚 Daha İleri