Crossbar Dizisi
65,536 hücre, tek MVM motoru — SIDRA YILDIRIM'ın temel yapı taşı.
Önkoşul
Bu bölümde öğreneceklerin
- 256×256 crossbar geometrisini ve tellerini detayla tanı
- Crossbar üzerinde MVM'in fiziksel akışını adım adım izle
- Crossbar tasarımının temel sınırlarını (IR drop, sneak path, sourcing impedance) say
- 1T1R crossbar layout'unu ve metal katmanı kullanımını anla
- Y1 crossbar throughput ve enerji rakamlarını hesapla
Açılış: 65,536 Çarpıcı, Tek Adım
Bir 256×256 SIDRA crossbar = 65,536 memristör hücresi. Bunların hepsi:
- Aynı anda
- Bir tek 10 ns’lik elektrik adımında
- Tek bir matris-vektör çarpımı (MVM) yapar
Geleneksel bir CPU bu işi 65,536 instruction × 1 ns = 65 µs’de yapar. Crossbar 6500× daha hızlı. Ve 100× daha az enerji.
Bu bölüm o crossbar’ın tellerini, tasarımını, ve sınırlarını anlatır. Modül 5.2’de tek hücreyi ele aldık; şimdi binlerce hücreyi bir araya nasıl getirdiğimizi görüyoruz.
Sezgi: Yatay + Dikey Tellerin Kavşağı
Crossbar fiziksel olarak iki dik tel kümesidir:
- Word-line (WL): yatay teller (satırlar). 256 tel.
- Bit-line (BL): dikey teller (sütunlar). 256 tel.
- Her kavşakta bir memristör hücresi (1T1R için + bir transistör).
BL1 BL2 BL3 ... BL256
| | | |
WL1 ──[R]──[R]──[R]──...──[R]──
| | | |
WL2 ──[R]──[R]──[R]──...──[R]──
| | | |
WL3 ──[R]──[R]──[R]──...──[R]──
| | | |
...
| | | |
WL256──[R]──[R]──[R]──...──[R]──
| | | |
I1 I2 I3 ... I256 (sütun çıkış akımları)Boyutlar: 256 × 256 = 65,536 kavşak. Her hücre 100 nm × 100 nm (Y1) → toplam crossbar alanı: ~25.6 µm × 25.6 µm = 0.000656 mm². Çok küçük.
MVM akışı:
- Vektör girişi (256 boyut) DAC’lardan WL’lere voltaj olarak uygulanır.
- Her WL’den her hücre üzerinden BL’lere akım akar (Ohm).
- Her BL’de tüm hücre akımları toplanır (Kirchhoff).
- 256 BL’den 256 ADC ile dijitale çevrilir → çıkış vektörü .
Bu Modül 4.2’de matematiksel olarak anlattık. Burada fiziksel devre tarafı.
Formalizm: Crossbar Tasarımı Detayları
Tel parametreleri (Y1):
- Word-line (WL): Cu metal, genişlik 30 nm, kalınlık 50 nm, uzunluk ~26 µm.
- Bit-line (BL): Cu metal, aynı boyut, dik istikamet.
- WL ve BL farklı metal katmanlarında (M2 ve M3 örneğin), arasında dielektrik.
- Her kesişimde bir via memristöre bağlanır.
Direnç hesaplaması (Cu, BEOL Modül 2.8):
- µΩ·cm (size effect dahil)
- nm² = cm²
- µm = cm
- Ω
Tek tel ~600 Ω. 256 hücreden geçen toplam akım için bu direnç IR drop yapar.
Hücre direnci:
- LRS: 10 kΩ (G = 100 µS).
- HRS: 1 MΩ (G = 1 µS).
Tel (600 Ω) çok küçük LRS (10 kΩ)‘a göre → tel direnç ihmal edilebilir? Bekle — IR drop konusu Modül 5.12’de.
Aktif alan analizi:
256×256 crossbar = 65,536 hücre × 100 nm × 100 nm = 656 µm². 28 nm CMOS taban die bu kadar yer 28 nm’de ~330,000 transistör tutar (1T1R için 65K transistör + ek devre). Yani crossbar alanı transistör alanından küçük.
MVM’in fiziksel akışı (256×256, paralel):
Adım 1 — DAC giriş hazırlama (5 ns):
- 256 DAC giriş vektörünü voltajlara çevirir.
- Her DAC: 8-bit input → 0-0.5 V analog out.
- DAC enerjisi: 0.5 pJ × 256 = 128 pJ.
Adım 2 — Word-line aktivasyonu (1 ns):
- DAC çıkışları WL sürücülerine bağlanır.
- WL voltajı yükselir (RC settling).
- Tipik settling: τ = R_drv × C_WL ≈ 1 ns.
Adım 3 — Crossbar settling (5 ns):
- Akımlar Ohm yasası ile fiziksel olarak akar.
- Her hücre: .
- Her sütunda KCL: .
- Tüm bu fizik anında olur (ışık hızı sınırı değil — kapasitans şarj zamanı).
- 256-hücre paralel akım üst sınırı: ~10 mA (worst case LRS hepsi).
Adım 4 — ADC dönüşüm (5 ns):
- 256 ADC sütun akımlarını sayıya çevirir.
- 8-bit ADC: 256 seviye.
- ADC enerjisi: 1 pJ × 256 = 256 pJ.
Adım 5 — Sonuç çıkışı (1 ns):
- ADC çıkışları compute engine’e gönderilir.
Toplam MVM süresi: ~10-15 ns (settling + ADC). Bu Modül 4.2’deki “10 ns” rakamının ayrıntısı.
Toplam MVM enerjisi:
- DAC: 128 pJ
- Crossbar (Ohm dissipasyon): 26 pJ (tipik aktivite)
- ADC: 256 pJ
- Kontrol: 50 pJ
- Toplam: ~460 pJ/MVM (Modül 4.2’de gördük).
Throughput: 1 / 15 ns = 67M MVM/saniye/crossbar. 65K MAC × 67M = 4.4 × 10¹² MAC/saniye = 4.4 TOPS per crossbar.
Y1 6400 crossbar paralel → teorik 28 POPS. Pratik 30 TOPS (sequential bottleneck).
IR drop probleminin sayıları:
256 hücre paralel sürülüyor, her biri 50 µS @ 0.25 V → her hücre 12.5 µA.
Word-line akımı (worst case): 256 × 12.5 = 3.2 mA.
WL direnç 600 Ω → IR drop: 3.2 mA × 600 Ω = 1.9 V! Bu 0.25 V girişi tamamen yutar.
Düzeltme:
- Aslında akım WL boyunca azalır (her hücre alır). Ortalama akım yarısı kadar.
- Çift-uçlu WL sürücü (her iki uç beslenir).
- Geniş tel (50 nm × 100 nm) → direnç düşer.
- Sonuç: ~5-10% IR drop pratik (Modül 5.12’de tam analiz).
Sneak path:
1T1R’da transistör sneak path’i engeller — sadece seçili hücreden akım geçer.
1R/1S1R’da sneak path engelleme stratejileri:
- Yarı-seçim (V/2 schemes): yarı voltaj uygula → sneak akım düşer ama yine var.
- OTS selector (1S1R): voltaj eşik altı = açık değil.
- Negatif voltaj kullanma: sadece bir yöne akım.
SIDRA Y1 1T1R kullanır → sneak path sıfır. Y10 1S1R 3D istif için OTS NbOx (Modül 2.3).
Sourcing impedance:
Word-line sürücü çıkış impedansı (R_drv) kritik. Yüksekse → IR drop büyür. Düşükse → büyük transistör → büyük alan.
SIDRA Y1: R_drv ≈ 50 Ω, transistör genişlik 1 µm.
Layout pratiği (1T1R):
Bir 1T1R hücresi ~6F² alana sığar (F = minimum feature):
- 28 nm Y1: 6 × 28² = 4700 nm² ≈ 70 nm × 70 nm. Plus contact + via.
- Pratik 100 nm × 100 nm = 10000 nm² (margin için).
256×256 crossbar fiziksel layout:
- Active alan (memristör): 25.6 µm × 25.6 µm.
- Periferik: WL/BL sürücüler, ADC, DAC ekstra ~50 µm her yön.
- Toplam crossbar bloğu: ~125 µm × 125 µm = 15625 µm².
Y1 die alanı 1 cm² = 10⁸ µm². 6400 crossbar × 15625 = 10⁸ µm². Tam Y1 die’ı doldurur (CMOS taban + ADC + interconnect dahil).
Çoklu metal katmanı:
WL: M3 metal katmanı. BL: M4 metal katmanı. Memristör cell: M3-M4 arası BEOL’de inşa. 1T1R transistörü: 28 nm CMOS tabanda (M1 öncesi). Power/ground: M5+ üst katmanlarda.
20-katman BEOL Y1’de bu yapı kompakt.
Deney: 256×256 Crossbar MVM Süresi vs CPU
İş: 256-vektör × 256×256 matris.
SIDRA Y1 crossbar:
- DAC setup: 5 ns
- Crossbar settling: 5 ns
- ADC: 5 ns
- Toplam: 15 ns
- 65,536 MAC + 65,280 add = ~131K op
- Throughput: 8.7 TOPS per single crossbar
Modern CPU (Intel Xeon, AVX-512):
- 1 GHz, 16 MAC/cycle (AVX-512)
- 16 GMAC/s = 16 GOPS
- 256×256 MVM: 65K MAC / 16G = 4 µs
- Crossbar 4000 / 15 = 266× daha hızlı
GPU (H100, FP16):
- 1 PFLOPS sustained ≈ 500 TMAC/s
- 256×256 MVM: 65K MAC / 500T = 130 ns
- Crossbar 130 / 15 = 8.7× daha hızlı (single crossbar vs whole H100)
Ama H100 paralel 1000+ thread çalıştırır. SIDRA Y1 6400 crossbar paralel.
Karşılaştırma (toplam throughput):
- Y1: 6400 × 4.4 TOPS = ~30 POPS analog.
- H100: ~1 PFLOPS (FP8 sparse). 30× kötü.
- Ama H100 dinamik (her batch farklı), Y1 statik (model sabit).
Enerji/MAC:
- CPU: ~1000 pJ (cache + DRAM dahil).
- GPU H100: ~10 pJ (HBM dahil).
- SIDRA Y1: ~0.05 pJ (crossbar) + 0.05 pJ overhead = 0.1 pJ.
- SIDRA 100× verimli.
Sonuç: Aynı MVM için SIDRA crossbar saniyeler değil mikrosaniye değil — nanosaniye. Enerji/operation H100’den 100× az.
Kısa Sınav
Laboratuvar Görevi
SIDRA Y1 crossbar’a 4-katmanlı CNN haritalama.
Model: ResNet-18 küçük CNN, ImageNet inference.
- 11M parametre, 1.8 GFLOP/inference.
- 4 ana conv katmanı + FC.
Her conv katmanı boyutları:
- Conv1: 3×3 × 64 filter, 224×224 imge.
- Conv2: 3×3 × 128 filter.
- Conv3: 3×3 × 256 filter.
- Conv4: 3×3 × 512 filter.
- FC: 512 × 1000 (ImageNet sınıf).
Sorular:
(a) Toplam parametre 11M; SIDRA Y1 (419M hücre) yüzde kaçını kullanır? (b) Conv1: 3×3 = 9 input × 64 output kernel → matris boyutu? Kaç crossbar? (c) Tüm CNN için kaç crossbar? (d) Inference süresi (sliding window konvolüsyon, ~28×28 spatial output ortalama)? (e) Inference enerjisi?
Çözümler
(a) 11M / 419M = %2.6. Y1 ResNet-18 için fazlasıyla büyük. Geri kalan başka modeller veya batching.
(b) Conv1 ağırlık matrisi: 9 input × 64 output = 9 × 64 = 576 ağırlık per kernel slot. Tek kernel’i 3×64 + 3×64 boyutunda crossbar. 256×256 crossbar’a sığar — 1 crossbar yeter Conv1 için.
(c) Toplam: ~50-100 crossbar (her conv ~10-20). FC: 512 × 1000 → 2 × 4 = 8 crossbar. Total ~70 crossbar, Y1’in %1’i.
(d) Sliding window Conv1: 224 × 224 = 50,176 sliding position. Her biri 1 MVM × 15 ns = 750 µs Conv1 için. Daha derin katmanlar 28×28, 14×14 — daha az pozisyon. Toplam inference: ~5-10 ms. Real-time kamera için yeterli.
(e) Toplam MAC: 1.8 G. SIDRA 0.1 pJ/MAC → 180 mJ. Hayır, yanlış. 1.8 GFLOP = 1.8 × 10⁹ × 0.1 pJ = 0.18 mJ. Inference enerjisi ~0.2 mJ. Çok az.
Sonuç: Real-time ResNet-18 inference (30 fps) Y1’de 6 mJ/saniye = 6 mW. TDP 3W’ın çok altında — başka modeller paralel çalıştırılabilir.
Özet Kart
- Crossbar: dik 2 tel kümesi + kavşaklarda memristör.
- 256×256 = 65K MAC paralel.
- MVM süresi: ~10-15 ns (DAC + Ohm settling + ADC).
- Throughput: 4.4 TOPS/crossbar.
- Y1: 6400 crossbar → 30 TOPS gerçek (overhead’le).
- Hücre yapısı: 1T1R Y1 (sneak path yok).
- Layout: 25 µm aktif, 125 µm bloğu (periferal dahil).
- IR drop: WL’de ~5-10% pratik, Modül 5.12’de detay.
- Enerji/MAC: ~0.1 pJ (CPU 1000×, GPU 100× kötü).
Vizyon: Daha Büyük, Daha Yoğun, Daha Üç-Boyutlu
Crossbar tasarımı evrim gösterir:
- Y1 (bugün): 256×256, 1T1R, 100 nm hücre, 28 nm CMOS taban.
- Y3 (2027): 512×512, daha sıkı 1T1R, 70 nm hücre, 14 nm CMOS.
- Y10 (2029): 1024×1024, 1S1R 3D-stack 4 katman, 28 nm hücre, 7 nm CMOS.
- Y100 (2031+): 4096×4096, fotonik bağlantılı, 14 nm hücre. 3D istif 16 katman. Tek çipte 100B hücre.
- Y1000 (uzun vade): Crossbar = bilgisayarın temel yapı taşı, CPU yok. Tüm hesaplama crossbar’da.
Türkiye için anlam: Crossbar tasarımı yarı iletken endüstrisinin yeni alt-kategorisi. Klasik CPU/GPU dışında, daha az dolu, açık alan. Türkiye’nin teknik yeteneği yetebilir — fab altyapısı sınır faktörü. SIDRA atölyesi bu sınırı aşan ilk somut adım.
Beklenmedik gelecek: Crossbar in everything. Telefonların, otomobillerin, beyaz eşyaların içinde küçük SIDRA crossbar’ları yerel AI yapar. Bulut bağımlılığı düşer. Yerel-AI çağı. 2030+ ufku.
Daha İleri
- Bir sonraki bölüm: 5.4 — YILDIRIM Çip Mimarisi
- Önceki: 5.2 — Memristöre Derin Dalış
- MVM matematiği bağlantı: 4.2 — Ohm + Kirchhoff = Analog MVM
- Crossbar tarihçe: Borghetti et al., ‘Memristive’ switches enable ‘stateful’ logic operations via material implication, Nature 2010.
- 1T1R tasarım: Sheu et al., A 4Mb embedded SLC resistive-RAM macro with 7.2 ns read-write random-access time…, ISSCC 2011.
- Crossbar review: Yu, Neuro-inspired computing with emerging nonvolatile memory, Proc. IEEE 2018.