🔌 Modül 5 · Çip Donanımı · Bölüm 5.1 · 13 dk okuma

Nöromorfik Hesaplama Paradigması

Von Neumann duvarını yıkmanın tek yolu — ve SIDRA YILDIRIM'ın seçimi.

Önkoşul

4.8 — Lineer Cebir Laboratuvarı

Bu bölümde öğreneceklerin

Von Neumann mimarisinin sınırını (memory wall) ve nöromorfik mimarinin çözümünü yaz
Compute-in-memory ilkesinin SIDRA YILDIRIM'da nasıl uygulandığını söyle
Dijital nöromorfik (Loihi, TrueNorth) ile analog (SIDRA) yaklaşımı karşılaştır
YILDIRIM'ın 3 temel tasarım ilkesini (compute-in-memory, analog precision, hierarchical parallelism) açıkla
Nöromorfik hesaplamanın endüstriyel konumunu ve SIDRA'nın kategoride yerini söyle

Açılış: 1945'in Bugünkü Duvarı

John von Neumann 1945’te modern bilgisayar mimarisini tarif etti: CPU bir tarafta, bellek başka bir tarafta, bus ile bağlı.

Bu mimari 80 yıl ayakta kaldı. Ama AI çağında duvara çarptı:

CPU hızı: her yıl ~%20 artıyor.
Bellek hızı: her yıl ~%5 artıyor.
Bellek erişimi CPU işlemden 100-1000× yavaş.
GPT-3 inference’ının ~70%‘i bellek bandını bekliyor, hesap yapmayı değil!

Bu memory wall veya von Neumann bottleneck. Çözüm nedir? Bellek ile hesabı aynı yerde yap → Compute-in-Memory (CIM). Nöromorfik hesaplamanın temel fikri bu.

SIDRA YILDIRIM çip mimarisinin seçimi: analog compute-in-memory. Memristör crossbar hem ağırlık saklar hem MVM yapar → bellek-hesap birliği. Bu modül (5) bu tasarımın silikon detaylarını inceler. Bu bölüm paradigmayı açıklar.

Sezgi: Bellekle Hesap Aynı Yerde

Geleneksel (von Neumann):

[CPU] ←──bus──→ [DRAM]
  ↑               ↑
  MAC             Ağırlıklar
  unit

Her MVM için: ağırlıkları DRAM’dan oku → bus’tan geçir → CPU register’a → MAC → sonucu geri yaz. Veri hareketi = enerji + zaman. Bellek erişimi MAC’tan 100-1000× pahalı.

Compute-in-Memory (SIDRA YILDIRIM):

[Crossbar]
  ↑
  Ağırlıklar yerinde
  MVM yerinde (Ohm+KCL)
  Çıkış = analog akım

Ağırlıklar hiç taşınmaz. Giriş voltajı uygulanır → çıkış akımı alınır. Bellek = hesap. Modül 4.2’de matematiğini gördük.

Karşılaştırma:

Metrik	Von Neumann (GPU)	CIM (SIDRA)
MVM enerjisi	~1-10 pJ/MAC	~20-50 fJ/MAC
Bellek erişimi	Her MVM için	Bir kez (program)
Dijital/analog	Tam dijital	Karma (crossbar analog)
Ölçek	GB-TB model	MB-GB model (Y1)
Esneklik	Her görev	AI inference odaklı

Nöromorfik hesaplamanın 3 ilkesi:

Compute-in-Memory: veri hareketi minimize.
Spike/Event-driven: sadece olay olduğunda hesap. (3.1-3.8’de gördük.)
Paralel/Asenkron: saat senkronize değil, olaya göre.

SIDRA Y1 sadece (1) uygular (analog CIM). Y3+ (2) ekler (spike-based). Y100 (3) tam implementasyon. Yol haritası nöromorfik yaklaşıma doğru.

Formalizm: CIM Verim Analizi ve Tasarım İlkeleri

L1 · Başlangıç

Memory wall formal:

Bir MVM için toplam enerji:

E_{\text{MVM}} = E_{\text{compute}} + E_{\text{memory}} + E_{\text{interconnect}}

GPU (von Neumann):

$E_{\text{compute}}$ : ~10 pJ/MAC (FP16).
$E_{\text{memory}}$ : ~100 pJ/MAC (DRAM erişimi).
$E_{\text{interconnect}}$ : ~50 pJ/MAC.
Toplam: ~160 pJ/MAC. Hesabın %6’sı aslında hesap!

SIDRA CIM:

$E_{\text{compute}}$ : ~0.05 pJ/MAC (crossbar).
$E_{\text{memory}}$ : 0 (yerinde).
$E_{\text{interconnect}}$ : ~0.05 pJ/MAC (ADC, DAC).
Toplam: ~0.1 pJ/MAC. 1600× daha verimli — ama sadece MVM için.

CIM ne zaman kazanır?

AI modelleri %90+ MVM. Bu oran yüksek olduğu sürece CIM kazanır. MVM olmayan işler (softmax, LayerNorm, kontrol akışı) dijital CMOS’ta.

Kazandığı yerler:

Inference (MVM-ağırlıklı): SIDRA büyük kazanç.
Eğitim: karma — forward CIM, backward kısmen (Modül 6).
Küçük model: overhead büyük (ADC) → az kazanç.
Büyük model: CIM doğal avantaj.

L2 · Tam

Nöromorfik mimari türleri:

1. Dijital nöromorfik:

Geleneksel CMOS, ama spike/event-driven:

IBM TrueNorth (2014): 1M nöron, 256M sinaps. Dijital, 1 kHz saat, 70 mW. Spike-based ama ağırlıklar sabit (post-eğitim).
Intel Loihi (2018): 130K nöron/çip, on-chip STDP learning. Dijital CMOS. 100 mW/çip.
SpiNNaker (Manchester): 1M ARM çekirdeği, spike emülasyonu.

2. Analog nöromorfik (CIM-based):

Memristör tabanlı, analog MVM:

Mythic AI (flash-based): NAND flash analog MVM. 25 TOPS/W. 2021-2023’te ticari.
Rain AI (photonic): optik MVM. 2024+.
SIDRA YILDIRIM (HfO₂ memristör): 10 TOPS/W Y1, 300 hedef Y100.

Karşılaştırma:

Özellik	Loihi (dijital)	Mythic (analog)	SIDRA YILDIRIM (analog-memristör)
Temel cihaz	CMOS	NAND flash	HfO₂ memristör
MVM türü	Dijital	Analog akım	Analog akım
Bit	8-bit tipik	8-bit efektif	8-bit (256 seviye)
STDP	Evet	Hayır	Y10+ hedef
Verim	~10 TOPS/W	25 TOPS/W	10-300 TOPS/W
Ürün yılı	2018	2022	2026+

SIDRA’nın farkı: Memristör non-volatile + 256 seviye + CMOS-proses uyumlu. Flash’a göre daha hassas (bit-level kontrol), daha düşük enerji. Photonic’e göre oda-sıcaklığı + ölçeklenir.

L3 · Derin

YILDIRIM çip mimarisi — üç tasarım ilkesi:

İlke 1: Compute-in-Memory (CIM).

Her crossbar hem bellek hem hesap. 256×256 kare temel yapı taşı. CMOS tabanı (28 nm) crossbar’ı sürer + ADC/DAC + kontrol.

İlke 2: Analog precision.

8-bit (256 seviye) hücre hassasiyeti. ISPP ile %1 programlama hatası (Modül 5.5). Sıcaklık-aware okuma (Modül 5.10).

İlke 3: Hierarchical parallelism.

Crossbar → Compute Unit (CU, 16 crossbar) → Cluster (16 CU) → Chip (4 Cluster) → Sistem (çoklu çip).

Crossbar-içi: 65K MAC paralel (Ohm+KCL).
CU-içi: 16 crossbar paralel. 16× throughput.
Cluster-içi: 16 CU paralel. 256× throughput.
Chip-içi: 4 Cluster = 1024 crossbar paralel. Y1 total.

Y1 numaraları:

Crossbar: 256×256 = 65K hücre.
CU: 16 crossbar = 1M hücre.
Cluster: 16 CU = 16M hücre.
Chip: 4 Cluster = 64M hücre? Ama Y1 toplam 419M → aslında 4 değil, daha fazla Cluster.
Düzeltme: Y1 = ~26 Cluster × 16 CU × 16 crossbar × 65K = 419M. Veya farklı boyutlandırma.

Y1 spec (yaklaşık):

32 CU × 16 crossbar × 65K = 33.5M. Değil.
Detayı Modül 5.4 (YILDIRIM Mimarisi)‘nde.

Von Neumann yıkma:

SIDRA “hibrit” — CPU + SIDRA. CPU kontrol ve non-MVM işler. SIDRA MVM. İki tarafın arası hızlı bus (PCIe 5.0 Y1’de). Yine de MVM için veri hareketi minimize → %80+ AI yük için CIM kazancı.

Karşı iddialar ve sınırlar:

Eğitim zorluğu: CIM backward pass donanımda zor. Y1 inference-only.
Ölçek sorunu: memristör ömrü sınırlı (~10⁹ SET/RESET), eğitimde hızlı tüketilir.
Esneklik: değişken ağırlıklar re-program gerektirir (mikrosaniye-milisaniye).
Gürültü: analog → 6-8 bit etkin; yüksek hassasiyet için yetmez.

SIDRA’nın cevabı: inference odaklı + 256-seviye + ISPP + çevre devresi + compiler optimizasyonu. Paket olarak 10-300 TOPS/W sağlar.

Deney: Bir GPT-2 Inference Enerji Analizi

GPT-2 small, tek token inference:

Parametre: 124M × 2 byte (FP16) = 248 MB.
FLOP: ~250 MFLOP.
Bellek erişimi: tüm parametreler bir kez (DRAM’dan).

NVIDIA H100 (von Neumann):

Hesap enerjisi: 250 MFLOP × 10 pJ ≈ 2.5 mJ.
Bellek enerjisi: 248 MB × 100 pJ/byte ≈ 25 mJ (DRAM).
Interconnect: ~5 mJ.
Toplam: ~32 mJ. Bellek baskın.

SIDRA Y1 (CIM):

Hesap enerjisi: 250 MFLOP × 0.05 pJ ≈ 12.5 µJ.
Bellek enerjisi: 0 (yerinde).
ADC/DAC: 0.05 pJ/MAC × 250M ≈ 12.5 µJ.
Toplam: ~25 µJ.

Oran: H100 / SIDRA = 32 mJ / 25 µJ = 1280×. Teorik. Pratikte SIDRA gerçek Y1 prototipinde ~50-100× verim bekleniyor (overhead’ler hesaba katılınca).

Süre:

H100: ~1 µs/token (batch 1), 0.01 µs/token (batch 32).
SIDRA Y1: ~100-1000 µs/token (bir tek crossbar sıralı).

Ama: SIDRA Y3+ çoklu crossbar paralel → süre düşer. Y10 GPT-3 için datacenter edge karşılaştırılır.

Sonuç: SIDRA düşük-güç edge inference için ideal. H100 yüksek-throughput datacenter eğitim için ideal. Yan yana çalışırlar, rakip değiller.

Kısa Sınav

1/6Von Neumann bottleneck nedir?

Laboratuvar Görevi

SIDRA Y1 ile Raspberry Pi edge inference karşılaştırması.

Raspberry Pi 5 (tipik edge AI):

CPU: 4-core ARM Cortex-A76, 2.4 GHz.
AI performans: ~10 GOPS INT8 (with Coral TPU ~4 TOPS).
Güç: ~5 W total.
Bellek: 8 GB DDR4.

SIDRA Y1 (edge):

CIM: 30 TOPS analog.
Güç: 3 W.
Bellek (model): 419M × 1 byte = 419 MB on-chip (non-volatile).

Senaryo: Bir cep telefonu app’inde gerçek-zamanlı ses tanıma (Whisper-tiny model, 39M parametre).

Sorular:

(a) Model Raspberry Pi 5 belleğine sığar mı? SIDRA Y1’e? (b) Raspberry Pi 5 Whisper-tiny inference süresi (~30 MFLOP/saniye gerçek zamanlı için)? (c) SIDRA Y1 aynı? (d) Her ikisinin enerjisi bir günlük kullanım için (%10 aktivite)? (e) Neden SIDRA bu senaryoda avantajlı?

Çözümler

(a) Raspberry Pi: 39M × 2 byte = 78 MB → RAM’de rahat sığar. SIDRA Y1: 39M < 419M → sığar, %9 kullanım. Kalan %91’i başka modeller için.

(b) Raspberry Pi 5 Coral TPU ile: 30 MFLOP / 4 TFLOPS ≈ 8 µs/inference. Gerçek-zaman için yeterli.

(d) 1 saatte 3600 saniye × %10 aktivite = 360 saniye. İnferans sayısı ~100/saniye × 360 = 36,000 inference/saat.

Raspberry Pi: 8 µs × 36K × 5W = 1.44 J + 5W idle × 3240 s = ~16 kJ idle. Baskın: idle güç.
SIDRA Y1: 1 µs × 36K × 3W = 0.1 J + 3W idle × 3600 s = 10.8 kJ. %33 tasarruf edge uygulamada.

(e) SIDRA avantajları: (1) idle güç düşük (non-volatile, memristör uykuda 0W), (2) aktif süre daha kısa (8× hız), (3) model kalıcı (cold-start yok). Edge için pil ömrü kritik metrik → SIDRA lider.

Gerçek ürün tahmini: 2027-2028 SIDRA Y3 tabanlı akıllı kulaklık / ev asistanı → sürekli dinleme + ses tanıma, 24 saat pil. Bugünkü çözümler 4-8 saat.

Özet Kart

Von Neumann bottleneck: CPU-bellek ayrımı → veri hareketi pahalı.
Memory wall: AI yükünde bellek erişimi hesabın 10-100 katı.
CIM (Compute-in-Memory): bellek ve hesap aynı yerde → memristör crossbar yerinde MVM.
SIDRA YILDIRIM: analog memristör CIM. HfO₂, 256 seviye, 10 TOPS/W Y1.
Rakipler: Loihi (dijital spike), Mythic (flash analog), Rain (fotonik). Farklı trade-off.
3 tasarım ilkesi: CIM, analog precision, hierarchical parallelism.
Limit: inference-only Y1; eğitim için backward zor (3.6).

Vizyon: Post-von Neumann Çağı

80 yıllık Von Neumann mimarisi yavaş yavaş yerini mesaj-geçen paralel heterojen mimarilere bırakıyor. SIDRA bu geçişin somut örneği:

Y1 (bugün): Hibrit (CPU + SIDRA). CIM inference için; CPU kontrol + non-MVM.
Y3 (2027): Daha geniş SIDRA, CPU küçülür. Spike-based inference ekler. Veri merkezi deploys.
Y10 (2029): SIDRA tamamen dominant inference rolü. CPU minimal. Edge AI yaygın.
Y100 (2031+): Von Neumann büyük ölçüde atlanmış. CIM + spike + photonic. Datacenter ve edge aynı mimari.
Y1000 (uzun vade): Compute-in-sensor. Kamera, mikrofon, sensörün kendisi AI yapan donanım. Veri merkezi yok.

Türkiye için anlam: Von Neumann’dan çıkmak = klasik CPU/GPU yarışından çıkmak. Türkiye’nin ulusal AI mimarisi iddiası bu kavşakta. SIDRA YILDIRIM = Türkiye’nin “biz de yarışta varız” demesinin somut donanımsal örneği. Akademi + atölye + endüstri birleşimiyle 2028-2030’da dünyanın ilk 10 nöromorfik şirketinden biri olma hedefi ulaşılabilir.

Beklenmedik gelecek: Neuromorfik bilgisayar OS. Bugünkü işletim sistemleri von Neumann varsayımlı. SIDRA-tarzı donanım yaygınlaşırsa yeni OS paradigması gerekir: event-driven, spike-queue, asenkron. Linux’un “nöromorfik core” modülü. Modül 6 yazılım yığınında ilk taslak.

Daha İleri

Bir sonraki bölüm: 5.2 — Memristöre Derin Dalış
Önceki modül: 4.8 — Lineer Cebir Laboratuvarı
Von Neumann orijinal: J. von Neumann, First Draft of a Report on the EDVAC, 1945.
Memory wall: Wulf & McKee, Hitting the memory wall, ACM SIGARCH Computer Architecture News 1995.
Neuromorfik kavram: Carver Mead, Analog VLSI and Neural Systems, 1989.
IBM TrueNorth: Merolla et al., A million spiking-neuron integrated circuit…, Science 2014.
Intel Loihi: Davies et al., Loihi: A neuromorphic manycore processor with on-chip learning, IEEE Micro 2018.
CIM review: Sebastian et al., Memory devices and applications for in-memory computing, Nature Nanotech. 2020.

Önkoşul

Bu bölümde öğreneceklerin

🪝 Açılış: 1945'in Bugünkü Duvarı

🧭 Sezgi: Bellekle Hesap Aynı Yerde

📐 Formalizm: CIM Verim Analizi ve Tasarım İlkeleri

🧪 Deney: Bir GPT-2 Inference Enerji Analizi

📝 Kısa Sınav

🛠️ Laboratuvar Görevi

🗂️ Özet Kart

🔮 Vizyon: Post-von Neumann Çağı

📚 Daha İleri