🔌 Modül 5 · Çip Donanımı · Bölüm 5.1 · 13 dk okuma

Nöromorfik Hesaplama Paradigması

Von Neumann duvarını yıkmanın tek yolu — ve SIDRA YILDIRIM'ın seçimi.

Bu bölümde öğreneceklerin

  • Von Neumann mimarisinin sınırını (memory wall) ve nöromorfik mimarinin çözümünü yaz
  • Compute-in-memory ilkesinin SIDRA YILDIRIM'da nasıl uygulandığını söyle
  • Dijital nöromorfik (Loihi, TrueNorth) ile analog (SIDRA) yaklaşımı karşılaştır
  • YILDIRIM'ın 3 temel tasarım ilkesini (compute-in-memory, analog precision, hierarchical parallelism) açıkla
  • Nöromorfik hesaplamanın endüstriyel konumunu ve SIDRA'nın kategoride yerini söyle

Açılış: 1945'in Bugünkü Duvarı

John von Neumann 1945’te modern bilgisayar mimarisini tarif etti: CPU bir tarafta, bellek başka bir tarafta, bus ile bağlı.

Bu mimari 80 yıl ayakta kaldı. Ama AI çağında duvara çarptı:

  • CPU hızı: her yıl ~%20 artıyor.
  • Bellek hızı: her yıl ~%5 artıyor.
  • Bellek erişimi CPU işlemden 100-1000× yavaş.
  • GPT-3 inference’ının ~70%‘i bellek bandını bekliyor, hesap yapmayı değil!

Bu memory wall veya von Neumann bottleneck. Çözüm nedir? Bellek ile hesabı aynı yerde yap → Compute-in-Memory (CIM). Nöromorfik hesaplamanın temel fikri bu.

SIDRA YILDIRIM çip mimarisinin seçimi: analog compute-in-memory. Memristör crossbar hem ağırlık saklar hem MVM yapar → bellek-hesap birliği. Bu modül (5) bu tasarımın silikon detaylarını inceler. Bu bölüm paradigmayı açıklar.

Sezgi: Bellekle Hesap Aynı Yerde

Geleneksel (von Neumann):

[CPU] ←──bus──→ [DRAM]
  ↑               ↑
  MAC             Ağırlıklar
  unit

Her MVM için: ağırlıkları DRAM’dan oku → bus’tan geçir → CPU register’a → MAC → sonucu geri yaz. Veri hareketi = enerji + zaman. Bellek erişimi MAC’tan 100-1000× pahalı.

Compute-in-Memory (SIDRA YILDIRIM):

[Crossbar]

  Ağırlıklar yerinde
  MVM yerinde (Ohm+KCL)
  Çıkış = analog akım

Ağırlıklar hiç taşınmaz. Giriş voltajı uygulanır → çıkış akımı alınır. Bellek = hesap. Modül 4.2’de matematiğini gördük.

Karşılaştırma:

MetrikVon Neumann (GPU)CIM (SIDRA)
MVM enerjisi~1-10 pJ/MAC~20-50 fJ/MAC
Bellek erişimiHer MVM içinBir kez (program)
Dijital/analogTam dijitalKarma (crossbar analog)
ÖlçekGB-TB modelMB-GB model (Y1)
EsneklikHer görevAI inference odaklı

Nöromorfik hesaplamanın 3 ilkesi:

  1. Compute-in-Memory: veri hareketi minimize.
  2. Spike/Event-driven: sadece olay olduğunda hesap. (3.1-3.8’de gördük.)
  3. Paralel/Asenkron: saat senkronize değil, olaya göre.

SIDRA Y1 sadece (1) uygular (analog CIM). Y3+ (2) ekler (spike-based). Y100 (3) tam implementasyon. Yol haritası nöromorfik yaklaşıma doğru.

Formalizm: CIM Verim Analizi ve Tasarım İlkeleri

L1 · Başlangıç

Memory wall formal:

Bir MVM için toplam enerji:

EMVM=Ecompute+Ememory+EinterconnectE_{\text{MVM}} = E_{\text{compute}} + E_{\text{memory}} + E_{\text{interconnect}}

GPU (von Neumann):

  • EcomputeE_{\text{compute}}: ~10 pJ/MAC (FP16).
  • EmemoryE_{\text{memory}}: ~100 pJ/MAC (DRAM erişimi).
  • EinterconnectE_{\text{interconnect}}: ~50 pJ/MAC.
  • Toplam: ~160 pJ/MAC. Hesabın %6’sı aslında hesap!

SIDRA CIM:

  • EcomputeE_{\text{compute}}: ~0.05 pJ/MAC (crossbar).
  • EmemoryE_{\text{memory}}: 0 (yerinde).
  • EinterconnectE_{\text{interconnect}}: ~0.05 pJ/MAC (ADC, DAC).
  • Toplam: ~0.1 pJ/MAC. 1600× daha verimli — ama sadece MVM için.

CIM ne zaman kazanır?

AI modelleri %90+ MVM. Bu oran yüksek olduğu sürece CIM kazanır. MVM olmayan işler (softmax, LayerNorm, kontrol akışı) dijital CMOS’ta.

Kazandığı yerler:

  • Inference (MVM-ağırlıklı): SIDRA büyük kazanç.
  • Eğitim: karma — forward CIM, backward kısmen (Modül 6).
  • Küçük model: overhead büyük (ADC) → az kazanç.
  • Büyük model: CIM doğal avantaj.
L2 · Tam

Nöromorfik mimari türleri:

1. Dijital nöromorfik:

Geleneksel CMOS, ama spike/event-driven:

  • IBM TrueNorth (2014): 1M nöron, 256M sinaps. Dijital, 1 kHz saat, 70 mW. Spike-based ama ağırlıklar sabit (post-eğitim).
  • Intel Loihi (2018): 130K nöron/çip, on-chip STDP learning. Dijital CMOS. 100 mW/çip.
  • SpiNNaker (Manchester): 1M ARM çekirdeği, spike emülasyonu.

2. Analog nöromorfik (CIM-based):

Memristör tabanlı, analog MVM:

  • Mythic AI (flash-based): NAND flash analog MVM. 25 TOPS/W. 2021-2023’te ticari.
  • Rain AI (photonic): optik MVM. 2024+.
  • SIDRA YILDIRIM (HfO₂ memristör): 10 TOPS/W Y1, 300 hedef Y100.

Karşılaştırma:

ÖzellikLoihi (dijital)Mythic (analog)SIDRA YILDIRIM (analog-memristör)
Temel cihazCMOSNAND flashHfO₂ memristör
MVM türüDijitalAnalog akımAnalog akım
Bit8-bit tipik8-bit efektif8-bit (256 seviye)
STDPEvetHayırY10+ hedef
Verim~10 TOPS/W25 TOPS/W10-300 TOPS/W
Ürün yılı201820222026+

SIDRA’nın farkı: Memristör non-volatile + 256 seviye + CMOS-proses uyumlu. Flash’a göre daha hassas (bit-level kontrol), daha düşük enerji. Photonic’e göre oda-sıcaklığı + ölçeklenir.

L3 · Derin

YILDIRIM çip mimarisi — üç tasarım ilkesi:

İlke 1: Compute-in-Memory (CIM).

Her crossbar hem bellek hem hesap. 256×256 kare temel yapı taşı. CMOS tabanı (28 nm) crossbar’ı sürer + ADC/DAC + kontrol.

İlke 2: Analog precision.

8-bit (256 seviye) hücre hassasiyeti. ISPP ile %1 programlama hatası (Modül 5.5). Sıcaklık-aware okuma (Modül 5.10).

İlke 3: Hierarchical parallelism.

Crossbar → Compute Unit (CU, 16 crossbar) → Cluster (16 CU) → Chip (4 Cluster) → Sistem (çoklu çip).

  • Crossbar-içi: 65K MAC paralel (Ohm+KCL).
  • CU-içi: 16 crossbar paralel. 16× throughput.
  • Cluster-içi: 16 CU paralel. 256× throughput.
  • Chip-içi: 4 Cluster = 1024 crossbar paralel. Y1 total.

Y1 numaraları:

  • Crossbar: 256×256 = 65K hücre.
  • CU: 16 crossbar = 1M hücre.
  • Cluster: 16 CU = 16M hücre.
  • Chip: 4 Cluster = 64M hücre? Ama Y1 toplam 419M → aslında 4 değil, daha fazla Cluster.
  • Düzeltme: Y1 = ~26 Cluster × 16 CU × 16 crossbar × 65K = 419M. Veya farklı boyutlandırma.

Y1 spec (yaklaşık):

  • 32 CU × 16 crossbar × 65K = 33.5M. Değil.
  • Detayı Modül 5.4 (YILDIRIM Mimarisi)‘nde.

Von Neumann yıkma:

SIDRA “hibrit” — CPU + SIDRA. CPU kontrol ve non-MVM işler. SIDRA MVM. İki tarafın arası hızlı bus (PCIe 5.0 Y1’de). Yine de MVM için veri hareketi minimize → %80+ AI yük için CIM kazancı.

Karşı iddialar ve sınırlar:

  1. Eğitim zorluğu: CIM backward pass donanımda zor. Y1 inference-only.
  2. Ölçek sorunu: memristör ömrü sınırlı (~10⁹ SET/RESET), eğitimde hızlı tüketilir.
  3. Esneklik: değişken ağırlıklar re-program gerektirir (mikrosaniye-milisaniye).
  4. Gürültü: analog → 6-8 bit etkin; yüksek hassasiyet için yetmez.

SIDRA’nın cevabı: inference odaklı + 256-seviye + ISPP + çevre devresi + compiler optimizasyonu. Paket olarak 10-300 TOPS/W sağlar.

Deney: Bir GPT-2 Inference Enerji Analizi

GPT-2 small, tek token inference:

  • Parametre: 124M × 2 byte (FP16) = 248 MB.
  • FLOP: ~250 MFLOP.
  • Bellek erişimi: tüm parametreler bir kez (DRAM’dan).

NVIDIA H100 (von Neumann):

  • Hesap enerjisi: 250 MFLOP × 10 pJ ≈ 2.5 mJ.
  • Bellek enerjisi: 248 MB × 100 pJ/byte ≈ 25 mJ (DRAM).
  • Interconnect: ~5 mJ.
  • Toplam: ~32 mJ. Bellek baskın.

SIDRA Y1 (CIM):

  • Hesap enerjisi: 250 MFLOP × 0.05 pJ ≈ 12.5 µJ.
  • Bellek enerjisi: 0 (yerinde).
  • ADC/DAC: 0.05 pJ/MAC × 250M ≈ 12.5 µJ.
  • Toplam: ~25 µJ.

Oran: H100 / SIDRA = 32 mJ / 25 µJ = 1280×. Teorik. Pratikte SIDRA gerçek Y1 prototipinde ~50-100× verim bekleniyor (overhead’ler hesaba katılınca).

Süre:

  • H100: ~1 µs/token (batch 1), 0.01 µs/token (batch 32).
  • SIDRA Y1: ~100-1000 µs/token (bir tek crossbar sıralı).

Ama: SIDRA Y3+ çoklu crossbar paralel → süre düşer. Y10 GPT-3 için datacenter edge karşılaştırılır.

Sonuç: SIDRA düşük-güç edge inference için ideal. H100 yüksek-throughput datacenter eğitim için ideal. Yan yana çalışırlar, rakip değiller.

Kısa Sınav

1/6Von Neumann bottleneck nedir?

Laboratuvar Görevi

SIDRA Y1 ile Raspberry Pi edge inference karşılaştırması.

Raspberry Pi 5 (tipik edge AI):

  • CPU: 4-core ARM Cortex-A76, 2.4 GHz.
  • AI performans: ~10 GOPS INT8 (with Coral TPU ~4 TOPS).
  • Güç: ~5 W total.
  • Bellek: 8 GB DDR4.

SIDRA Y1 (edge):

  • CIM: 30 TOPS analog.
  • Güç: 3 W.
  • Bellek (model): 419M × 1 byte = 419 MB on-chip (non-volatile).

Senaryo: Bir cep telefonu app’inde gerçek-zamanlı ses tanıma (Whisper-tiny model, 39M parametre).

Sorular:

(a) Model Raspberry Pi 5 belleğine sığar mı? SIDRA Y1’e? (b) Raspberry Pi 5 Whisper-tiny inference süresi (~30 MFLOP/saniye gerçek zamanlı için)? (c) SIDRA Y1 aynı? (d) Her ikisinin enerjisi bir günlük kullanım için (%10 aktivite)? (e) Neden SIDRA bu senaryoda avantajlı?

Çözümler

(a) Raspberry Pi: 39M × 2 byte = 78 MB → RAM’de rahat sığar. SIDRA Y1: 39M < 419M → sığar, %9 kullanım. Kalan %91’i başka modeller için.

(b) Raspberry Pi 5 Coral TPU ile: 30 MFLOP / 4 TFLOPS ≈ 8 µs/inference. Gerçek-zaman için yeterli.

(c) SIDRA Y1: 30 MFLOP / 30 TOPS analog → 1 µs/inference. 8× daha hızlı.

(d) 1 saatte 3600 saniye × %10 aktivite = 360 saniye. İnferans sayısı ~100/saniye × 360 = 36,000 inference/saat.

  • Raspberry Pi: 8 µs × 36K × 5W = 1.44 J + 5W idle × 3240 s = ~16 kJ idle. Baskın: idle güç.
  • SIDRA Y1: 1 µs × 36K × 3W = 0.1 J + 3W idle × 3600 s = 10.8 kJ. %33 tasarruf edge uygulamada.

(e) SIDRA avantajları: (1) idle güç düşük (non-volatile, memristör uykuda 0W), (2) aktif süre daha kısa (8× hız), (3) model kalıcı (cold-start yok). Edge için pil ömrü kritik metrik → SIDRA lider.

Gerçek ürün tahmini: 2027-2028 SIDRA Y3 tabanlı akıllı kulaklık / ev asistanı → sürekli dinleme + ses tanıma, 24 saat pil. Bugünkü çözümler 4-8 saat.

Özet Kart

  • Von Neumann bottleneck: CPU-bellek ayrımı → veri hareketi pahalı.
  • Memory wall: AI yükünde bellek erişimi hesabın 10-100 katı.
  • CIM (Compute-in-Memory): bellek ve hesap aynı yerde → memristör crossbar yerinde MVM.
  • SIDRA YILDIRIM: analog memristör CIM. HfO₂, 256 seviye, 10 TOPS/W Y1.
  • Rakipler: Loihi (dijital spike), Mythic (flash analog), Rain (fotonik). Farklı trade-off.
  • 3 tasarım ilkesi: CIM, analog precision, hierarchical parallelism.
  • Limit: inference-only Y1; eğitim için backward zor (3.6).

Vizyon: Post-von Neumann Çağı

80 yıllık Von Neumann mimarisi yavaş yavaş yerini mesaj-geçen paralel heterojen mimarilere bırakıyor. SIDRA bu geçişin somut örneği:

  • Y1 (bugün): Hibrit (CPU + SIDRA). CIM inference için; CPU kontrol + non-MVM.
  • Y3 (2027): Daha geniş SIDRA, CPU küçülür. Spike-based inference ekler. Veri merkezi deploys.
  • Y10 (2029): SIDRA tamamen dominant inference rolü. CPU minimal. Edge AI yaygın.
  • Y100 (2031+): Von Neumann büyük ölçüde atlanmış. CIM + spike + photonic. Datacenter ve edge aynı mimari.
  • Y1000 (uzun vade): Compute-in-sensor. Kamera, mikrofon, sensörün kendisi AI yapan donanım. Veri merkezi yok.

Türkiye için anlam: Von Neumann’dan çıkmak = klasik CPU/GPU yarışından çıkmak. Türkiye’nin ulusal AI mimarisi iddiası bu kavşakta. SIDRA YILDIRIM = Türkiye’nin “biz de yarışta varız” demesinin somut donanımsal örneği. Akademi + atölye + endüstri birleşimiyle 2028-2030’da dünyanın ilk 10 nöromorfik şirketinden biri olma hedefi ulaşılabilir.

Beklenmedik gelecek: Neuromorfik bilgisayar OS. Bugünkü işletim sistemleri von Neumann varsayımlı. SIDRA-tarzı donanım yaygınlaşırsa yeni OS paradigması gerekir: event-driven, spike-queue, asenkron. Linux’un “nöromorfik core” modülü. Modül 6 yazılım yığınında ilk taslak.

Daha İleri

  • Bir sonraki bölüm: 5.2 — Memristöre Derin Dalış
  • Önceki modül: 4.8 — Lineer Cebir Laboratuvarı
  • Von Neumann orijinal: J. von Neumann, First Draft of a Report on the EDVAC, 1945.
  • Memory wall: Wulf & McKee, Hitting the memory wall, ACM SIGARCH Computer Architecture News 1995.
  • Neuromorfik kavram: Carver Mead, Analog VLSI and Neural Systems, 1989.
  • IBM TrueNorth: Merolla et al., A million spiking-neuron integrated circuit…, Science 2014.
  • Intel Loihi: Davies et al., Loihi: A neuromorphic manycore processor with on-chip learning, IEEE Micro 2018.
  • CIM review: Sebastian et al., Memory devices and applications for in-memory computing, Nature Nanotech. 2020.