Nöromorfik Hesaplama Paradigması
Von Neumann duvarını yıkmanın tek yolu — ve SIDRA YILDIRIM'ın seçimi.
Önkoşul
Bu bölümde öğreneceklerin
- Von Neumann mimarisinin sınırını (memory wall) ve nöromorfik mimarinin çözümünü yaz
- Compute-in-memory ilkesinin SIDRA YILDIRIM'da nasıl uygulandığını söyle
- Dijital nöromorfik (Loihi, TrueNorth) ile analog (SIDRA) yaklaşımı karşılaştır
- YILDIRIM'ın 3 temel tasarım ilkesini (compute-in-memory, analog precision, hierarchical parallelism) açıkla
- Nöromorfik hesaplamanın endüstriyel konumunu ve SIDRA'nın kategoride yerini söyle
Açılış: 1945'in Bugünkü Duvarı
John von Neumann 1945’te modern bilgisayar mimarisini tarif etti: CPU bir tarafta, bellek başka bir tarafta, bus ile bağlı.
Bu mimari 80 yıl ayakta kaldı. Ama AI çağında duvara çarptı:
- CPU hızı: her yıl ~%20 artıyor.
- Bellek hızı: her yıl ~%5 artıyor.
- Bellek erişimi CPU işlemden 100-1000× yavaş.
- GPT-3 inference’ının ~70%‘i bellek bandını bekliyor, hesap yapmayı değil!
Bu memory wall veya von Neumann bottleneck. Çözüm nedir? Bellek ile hesabı aynı yerde yap → Compute-in-Memory (CIM). Nöromorfik hesaplamanın temel fikri bu.
SIDRA YILDIRIM çip mimarisinin seçimi: analog compute-in-memory. Memristör crossbar hem ağırlık saklar hem MVM yapar → bellek-hesap birliği. Bu modül (5) bu tasarımın silikon detaylarını inceler. Bu bölüm paradigmayı açıklar.
Sezgi: Bellekle Hesap Aynı Yerde
Geleneksel (von Neumann):
[CPU] ←──bus──→ [DRAM]
↑ ↑
MAC Ağırlıklar
unitHer MVM için: ağırlıkları DRAM’dan oku → bus’tan geçir → CPU register’a → MAC → sonucu geri yaz. Veri hareketi = enerji + zaman. Bellek erişimi MAC’tan 100-1000× pahalı.
Compute-in-Memory (SIDRA YILDIRIM):
[Crossbar]
↑
Ağırlıklar yerinde
MVM yerinde (Ohm+KCL)
Çıkış = analog akımAğırlıklar hiç taşınmaz. Giriş voltajı uygulanır → çıkış akımı alınır. Bellek = hesap. Modül 4.2’de matematiğini gördük.
Karşılaştırma:
| Metrik | Von Neumann (GPU) | CIM (SIDRA) |
|---|---|---|
| MVM enerjisi | ~1-10 pJ/MAC | ~20-50 fJ/MAC |
| Bellek erişimi | Her MVM için | Bir kez (program) |
| Dijital/analog | Tam dijital | Karma (crossbar analog) |
| Ölçek | GB-TB model | MB-GB model (Y1) |
| Esneklik | Her görev | AI inference odaklı |
Nöromorfik hesaplamanın 3 ilkesi:
- Compute-in-Memory: veri hareketi minimize.
- Spike/Event-driven: sadece olay olduğunda hesap. (3.1-3.8’de gördük.)
- Paralel/Asenkron: saat senkronize değil, olaya göre.
SIDRA Y1 sadece (1) uygular (analog CIM). Y3+ (2) ekler (spike-based). Y100 (3) tam implementasyon. Yol haritası nöromorfik yaklaşıma doğru.
Formalizm: CIM Verim Analizi ve Tasarım İlkeleri
Memory wall formal:
Bir MVM için toplam enerji:
GPU (von Neumann):
- : ~10 pJ/MAC (FP16).
- : ~100 pJ/MAC (DRAM erişimi).
- : ~50 pJ/MAC.
- Toplam: ~160 pJ/MAC. Hesabın %6’sı aslında hesap!
SIDRA CIM:
- : ~0.05 pJ/MAC (crossbar).
- : 0 (yerinde).
- : ~0.05 pJ/MAC (ADC, DAC).
- Toplam: ~0.1 pJ/MAC. 1600× daha verimli — ama sadece MVM için.
CIM ne zaman kazanır?
AI modelleri %90+ MVM. Bu oran yüksek olduğu sürece CIM kazanır. MVM olmayan işler (softmax, LayerNorm, kontrol akışı) dijital CMOS’ta.
Kazandığı yerler:
- Inference (MVM-ağırlıklı): SIDRA büyük kazanç.
- Eğitim: karma — forward CIM, backward kısmen (Modül 6).
- Küçük model: overhead büyük (ADC) → az kazanç.
- Büyük model: CIM doğal avantaj.
Nöromorfik mimari türleri:
1. Dijital nöromorfik:
Geleneksel CMOS, ama spike/event-driven:
- IBM TrueNorth (2014): 1M nöron, 256M sinaps. Dijital, 1 kHz saat, 70 mW. Spike-based ama ağırlıklar sabit (post-eğitim).
- Intel Loihi (2018): 130K nöron/çip, on-chip STDP learning. Dijital CMOS. 100 mW/çip.
- SpiNNaker (Manchester): 1M ARM çekirdeği, spike emülasyonu.
2. Analog nöromorfik (CIM-based):
Memristör tabanlı, analog MVM:
- Mythic AI (flash-based): NAND flash analog MVM. 25 TOPS/W. 2021-2023’te ticari.
- Rain AI (photonic): optik MVM. 2024+.
- SIDRA YILDIRIM (HfO₂ memristör): 10 TOPS/W Y1, 300 hedef Y100.
Karşılaştırma:
| Özellik | Loihi (dijital) | Mythic (analog) | SIDRA YILDIRIM (analog-memristör) |
|---|---|---|---|
| Temel cihaz | CMOS | NAND flash | HfO₂ memristör |
| MVM türü | Dijital | Analog akım | Analog akım |
| Bit | 8-bit tipik | 8-bit efektif | 8-bit (256 seviye) |
| STDP | Evet | Hayır | Y10+ hedef |
| Verim | ~10 TOPS/W | 25 TOPS/W | 10-300 TOPS/W |
| Ürün yılı | 2018 | 2022 | 2026+ |
SIDRA’nın farkı: Memristör non-volatile + 256 seviye + CMOS-proses uyumlu. Flash’a göre daha hassas (bit-level kontrol), daha düşük enerji. Photonic’e göre oda-sıcaklığı + ölçeklenir.
YILDIRIM çip mimarisi — üç tasarım ilkesi:
İlke 1: Compute-in-Memory (CIM).
Her crossbar hem bellek hem hesap. 256×256 kare temel yapı taşı. CMOS tabanı (28 nm) crossbar’ı sürer + ADC/DAC + kontrol.
İlke 2: Analog precision.
8-bit (256 seviye) hücre hassasiyeti. ISPP ile %1 programlama hatası (Modül 5.5). Sıcaklık-aware okuma (Modül 5.10).
İlke 3: Hierarchical parallelism.
Crossbar → Compute Unit (CU, 16 crossbar) → Cluster (16 CU) → Chip (4 Cluster) → Sistem (çoklu çip).
- Crossbar-içi: 65K MAC paralel (Ohm+KCL).
- CU-içi: 16 crossbar paralel. 16× throughput.
- Cluster-içi: 16 CU paralel. 256× throughput.
- Chip-içi: 4 Cluster = 1024 crossbar paralel. Y1 total.
Y1 numaraları:
- Crossbar: 256×256 = 65K hücre.
- CU: 16 crossbar = 1M hücre.
- Cluster: 16 CU = 16M hücre.
- Chip: 4 Cluster = 64M hücre? Ama Y1 toplam 419M → aslında 4 değil, daha fazla Cluster.
- Düzeltme: Y1 = ~26 Cluster × 16 CU × 16 crossbar × 65K = 419M. Veya farklı boyutlandırma.
Y1 spec (yaklaşık):
- 32 CU × 16 crossbar × 65K = 33.5M. Değil.
- Detayı Modül 5.4 (YILDIRIM Mimarisi)‘nde.
Von Neumann yıkma:
SIDRA “hibrit” — CPU + SIDRA. CPU kontrol ve non-MVM işler. SIDRA MVM. İki tarafın arası hızlı bus (PCIe 5.0 Y1’de). Yine de MVM için veri hareketi minimize → %80+ AI yük için CIM kazancı.
Karşı iddialar ve sınırlar:
- Eğitim zorluğu: CIM backward pass donanımda zor. Y1 inference-only.
- Ölçek sorunu: memristör ömrü sınırlı (~10⁹ SET/RESET), eğitimde hızlı tüketilir.
- Esneklik: değişken ağırlıklar re-program gerektirir (mikrosaniye-milisaniye).
- Gürültü: analog → 6-8 bit etkin; yüksek hassasiyet için yetmez.
SIDRA’nın cevabı: inference odaklı + 256-seviye + ISPP + çevre devresi + compiler optimizasyonu. Paket olarak 10-300 TOPS/W sağlar.
Deney: Bir GPT-2 Inference Enerji Analizi
GPT-2 small, tek token inference:
- Parametre: 124M × 2 byte (FP16) = 248 MB.
- FLOP: ~250 MFLOP.
- Bellek erişimi: tüm parametreler bir kez (DRAM’dan).
NVIDIA H100 (von Neumann):
- Hesap enerjisi: 250 MFLOP × 10 pJ ≈ 2.5 mJ.
- Bellek enerjisi: 248 MB × 100 pJ/byte ≈ 25 mJ (DRAM).
- Interconnect: ~5 mJ.
- Toplam: ~32 mJ. Bellek baskın.
SIDRA Y1 (CIM):
- Hesap enerjisi: 250 MFLOP × 0.05 pJ ≈ 12.5 µJ.
- Bellek enerjisi: 0 (yerinde).
- ADC/DAC: 0.05 pJ/MAC × 250M ≈ 12.5 µJ.
- Toplam: ~25 µJ.
Oran: H100 / SIDRA = 32 mJ / 25 µJ = 1280×. Teorik. Pratikte SIDRA gerçek Y1 prototipinde ~50-100× verim bekleniyor (overhead’ler hesaba katılınca).
Süre:
- H100: ~1 µs/token (batch 1), 0.01 µs/token (batch 32).
- SIDRA Y1: ~100-1000 µs/token (bir tek crossbar sıralı).
Ama: SIDRA Y3+ çoklu crossbar paralel → süre düşer. Y10 GPT-3 için datacenter edge karşılaştırılır.
Sonuç: SIDRA düşük-güç edge inference için ideal. H100 yüksek-throughput datacenter eğitim için ideal. Yan yana çalışırlar, rakip değiller.
Kısa Sınav
Laboratuvar Görevi
SIDRA Y1 ile Raspberry Pi edge inference karşılaştırması.
Raspberry Pi 5 (tipik edge AI):
- CPU: 4-core ARM Cortex-A76, 2.4 GHz.
- AI performans: ~10 GOPS INT8 (with Coral TPU ~4 TOPS).
- Güç: ~5 W total.
- Bellek: 8 GB DDR4.
SIDRA Y1 (edge):
- CIM: 30 TOPS analog.
- Güç: 3 W.
- Bellek (model): 419M × 1 byte = 419 MB on-chip (non-volatile).
Senaryo: Bir cep telefonu app’inde gerçek-zamanlı ses tanıma (Whisper-tiny model, 39M parametre).
Sorular:
(a) Model Raspberry Pi 5 belleğine sığar mı? SIDRA Y1’e? (b) Raspberry Pi 5 Whisper-tiny inference süresi (~30 MFLOP/saniye gerçek zamanlı için)? (c) SIDRA Y1 aynı? (d) Her ikisinin enerjisi bir günlük kullanım için (%10 aktivite)? (e) Neden SIDRA bu senaryoda avantajlı?
Çözümler
(a) Raspberry Pi: 39M × 2 byte = 78 MB → RAM’de rahat sığar. SIDRA Y1: 39M < 419M → sığar, %9 kullanım. Kalan %91’i başka modeller için.
(b) Raspberry Pi 5 Coral TPU ile: 30 MFLOP / 4 TFLOPS ≈ 8 µs/inference. Gerçek-zaman için yeterli.
(c) SIDRA Y1: 30 MFLOP / 30 TOPS analog → 1 µs/inference. 8× daha hızlı.
(d) 1 saatte 3600 saniye × %10 aktivite = 360 saniye. İnferans sayısı ~100/saniye × 360 = 36,000 inference/saat.
- Raspberry Pi: 8 µs × 36K × 5W = 1.44 J + 5W idle × 3240 s = ~16 kJ idle. Baskın: idle güç.
- SIDRA Y1: 1 µs × 36K × 3W = 0.1 J + 3W idle × 3600 s = 10.8 kJ. %33 tasarruf edge uygulamada.
(e) SIDRA avantajları: (1) idle güç düşük (non-volatile, memristör uykuda 0W), (2) aktif süre daha kısa (8× hız), (3) model kalıcı (cold-start yok). Edge için pil ömrü kritik metrik → SIDRA lider.
Gerçek ürün tahmini: 2027-2028 SIDRA Y3 tabanlı akıllı kulaklık / ev asistanı → sürekli dinleme + ses tanıma, 24 saat pil. Bugünkü çözümler 4-8 saat.
Özet Kart
- Von Neumann bottleneck: CPU-bellek ayrımı → veri hareketi pahalı.
- Memory wall: AI yükünde bellek erişimi hesabın 10-100 katı.
- CIM (Compute-in-Memory): bellek ve hesap aynı yerde → memristör crossbar yerinde MVM.
- SIDRA YILDIRIM: analog memristör CIM. HfO₂, 256 seviye, 10 TOPS/W Y1.
- Rakipler: Loihi (dijital spike), Mythic (flash analog), Rain (fotonik). Farklı trade-off.
- 3 tasarım ilkesi: CIM, analog precision, hierarchical parallelism.
- Limit: inference-only Y1; eğitim için backward zor (3.6).
Vizyon: Post-von Neumann Çağı
80 yıllık Von Neumann mimarisi yavaş yavaş yerini mesaj-geçen paralel heterojen mimarilere bırakıyor. SIDRA bu geçişin somut örneği:
- Y1 (bugün): Hibrit (CPU + SIDRA). CIM inference için; CPU kontrol + non-MVM.
- Y3 (2027): Daha geniş SIDRA, CPU küçülür. Spike-based inference ekler. Veri merkezi deploys.
- Y10 (2029): SIDRA tamamen dominant inference rolü. CPU minimal. Edge AI yaygın.
- Y100 (2031+): Von Neumann büyük ölçüde atlanmış. CIM + spike + photonic. Datacenter ve edge aynı mimari.
- Y1000 (uzun vade): Compute-in-sensor. Kamera, mikrofon, sensörün kendisi AI yapan donanım. Veri merkezi yok.
Türkiye için anlam: Von Neumann’dan çıkmak = klasik CPU/GPU yarışından çıkmak. Türkiye’nin ulusal AI mimarisi iddiası bu kavşakta. SIDRA YILDIRIM = Türkiye’nin “biz de yarışta varız” demesinin somut donanımsal örneği. Akademi + atölye + endüstri birleşimiyle 2028-2030’da dünyanın ilk 10 nöromorfik şirketinden biri olma hedefi ulaşılabilir.
Beklenmedik gelecek: Neuromorfik bilgisayar OS. Bugünkü işletim sistemleri von Neumann varsayımlı. SIDRA-tarzı donanım yaygınlaşırsa yeni OS paradigması gerekir: event-driven, spike-queue, asenkron. Linux’un “nöromorfik core” modülü. Modül 6 yazılım yığınında ilk taslak.
Daha İleri
- Bir sonraki bölüm: 5.2 — Memristöre Derin Dalış
- Önceki modül: 4.8 — Lineer Cebir Laboratuvarı
- Von Neumann orijinal: J. von Neumann, First Draft of a Report on the EDVAC, 1945.
- Memory wall: Wulf & McKee, Hitting the memory wall, ACM SIGARCH Computer Architecture News 1995.
- Neuromorfik kavram: Carver Mead, Analog VLSI and Neural Systems, 1989.
- IBM TrueNorth: Merolla et al., A million spiking-neuron integrated circuit…, Science 2014.
- Intel Loihi: Davies et al., Loihi: A neuromorphic manycore processor with on-chip learning, IEEE Micro 2018.
- CIM review: Sebastian et al., Memory devices and applications for in-memory computing, Nature Nanotech. 2020.