🔌 Modül 5 · Çip Donanımı · Bölüm 5.3 · 12 dk okuma

Crossbar Dizisi

65,536 hücre, tek MVM motoru — SIDRA YILDIRIM'ın temel yapı taşı.

Bu bölümde öğreneceklerin

  • 256×256 crossbar geometrisini ve tellerini detayla tanı
  • Crossbar üzerinde MVM'in fiziksel akışını adım adım izle
  • Crossbar tasarımının temel sınırlarını (IR drop, sneak path, sourcing impedance) say
  • 1T1R crossbar layout'unu ve metal katmanı kullanımını anla
  • Y1 crossbar throughput ve enerji rakamlarını hesapla

Açılış: 65,536 Çarpıcı, Tek Adım

Bir 256×256 SIDRA crossbar = 65,536 memristör hücresi. Bunların hepsi:

  • Aynı anda
  • Bir tek 10 ns’lik elektrik adımında
  • Tek bir matris-vektör çarpımı (MVM) yapar

Geleneksel bir CPU bu işi 65,536 instruction × 1 ns = 65 µs’de yapar. Crossbar 6500× daha hızlı. Ve 100× daha az enerji.

Bu bölüm o crossbar’ın tellerini, tasarımını, ve sınırlarını anlatır. Modül 5.2’de tek hücreyi ele aldık; şimdi binlerce hücreyi bir araya nasıl getirdiğimizi görüyoruz.

Sezgi: Yatay + Dikey Tellerin Kavşağı

Crossbar fiziksel olarak iki dik tel kümesidir:

  • Word-line (WL): yatay teller (satırlar). 256 tel.
  • Bit-line (BL): dikey teller (sütunlar). 256 tel.
  • Her kavşakta bir memristör hücresi (1T1R için + bir transistör).
       BL1   BL2   BL3   ...   BL256
        |     |     |           |
WL1 ──[R]──[R]──[R]──...──[R]── 
        |     |     |           |
WL2 ──[R]──[R]──[R]──...──[R]── 
        |     |     |           |
WL3 ──[R]──[R]──[R]──...──[R]── 
        |     |     |           |
  ...  
        |     |     |           |
WL256──[R]──[R]──[R]──...──[R]── 
        |     |     |           |
        I1    I2    I3    ...   I256 (sütun çıkış akımları)

Boyutlar: 256 × 256 = 65,536 kavşak. Her hücre 100 nm × 100 nm (Y1) → toplam crossbar alanı: ~25.6 µm × 25.6 µm = 0.000656 mm². Çok küçük.

MVM akışı:

  1. Vektör girişi xx (256 boyut) DAC’lardan WL’lere voltaj olarak uygulanır.
  2. Her WL’den her hücre üzerinden BL’lere akım akar (Ohm).
  3. Her BL’de tüm hücre akımları toplanır (Kirchhoff).
  4. 256 BL’den 256 ADC ile dijitale çevrilir → çıkış vektörü yy.

Bu Modül 4.2’de matematiksel olarak anlattık. Burada fiziksel devre tarafı.

Formalizm: Crossbar Tasarımı Detayları

L1 · Başlangıç

Tel parametreleri (Y1):

  • Word-line (WL): Cu metal, genişlik 30 nm, kalınlık 50 nm, uzunluk ~26 µm.
  • Bit-line (BL): Cu metal, aynı boyut, dik istikamet.
  • WL ve BL farklı metal katmanlarında (M2 ve M3 örneğin), arasında dielektrik.
  • Her kesişimde bir via memristöre bağlanır.

Direnç hesaplaması (Cu, BEOL Modül 2.8):

  • ρCu,eff=3.5\rho_{Cu, eff} = 3.5 µΩ·cm (size effect dahil)
  • A=30×50=1500A = 30 \times 50 = 1500 nm² = 1.5×10111.5 \times 10^{-11} cm²
  • L=26L = 26 µm = 2.6×1032.6 \times 10^{-3} cm
  • Rwire=ρL/A=3.5×106×2.6×103/1.5×1011=607R_{wire} = \rho L / A = 3.5 \times 10^{-6} \times 2.6 \times 10^{-3} / 1.5 \times 10^{-11} = 607 Ω

Tek tel ~600 Ω. 256 hücreden geçen toplam akım için bu direnç IR drop yapar.

Hücre direnci:

  • LRS: 10 kΩ (G = 100 µS).
  • HRS: 1 MΩ (G = 1 µS).

Tel (600 Ω) çok küçük LRS (10 kΩ)‘a göre → tel direnç ihmal edilebilir? Bekle — IR drop konusu Modül 5.12’de.

Aktif alan analizi:

256×256 crossbar = 65,536 hücre × 100 nm × 100 nm = 656 µm². 28 nm CMOS taban die bu kadar yer 28 nm’de ~330,000 transistör tutar (1T1R için 65K transistör + ek devre). Yani crossbar alanı transistör alanından küçük.

L2 · Tam

MVM’in fiziksel akışı (256×256, paralel):

Adım 1 — DAC giriş hazırlama (5 ns):

  • 256 DAC giriş vektörünü voltajlara çevirir.
  • Her DAC: 8-bit input → 0-0.5 V analog out.
  • DAC enerjisi: 0.5 pJ × 256 = 128 pJ.

Adım 2 — Word-line aktivasyonu (1 ns):

  • DAC çıkışları WL sürücülerine bağlanır.
  • WL voltajı yükselir (RC settling).
  • Tipik settling: τ = R_drv × C_WL ≈ 1 ns.

Adım 3 — Crossbar settling (5 ns):

  • Akımlar Ohm yasası ile fiziksel olarak akar.
  • Her hücre: Iij=GijViI_{ij} = G_{ij} \cdot V_i.
  • Her sütunda KCL: Ij=iIijI_j = \sum_i I_{ij}.
  • Tüm bu fizik anında olur (ışık hızı sınırı değil — kapasitans şarj zamanı).
  • 256-hücre paralel akım üst sınırı: ~10 mA (worst case LRS hepsi).

Adım 4 — ADC dönüşüm (5 ns):

  • 256 ADC sütun akımlarını sayıya çevirir.
  • 8-bit ADC: 256 seviye.
  • ADC enerjisi: 1 pJ × 256 = 256 pJ.

Adım 5 — Sonuç çıkışı (1 ns):

  • ADC çıkışları compute engine’e gönderilir.

Toplam MVM süresi: ~10-15 ns (settling + ADC). Bu Modül 4.2’deki “10 ns” rakamının ayrıntısı.

Toplam MVM enerjisi:

  • DAC: 128 pJ
  • Crossbar (Ohm dissipasyon): 26 pJ (tipik aktivite)
  • ADC: 256 pJ
  • Kontrol: 50 pJ
  • Toplam: ~460 pJ/MVM (Modül 4.2’de gördük).

Throughput: 1 / 15 ns = 67M MVM/saniye/crossbar. 65K MAC × 67M = 4.4 × 10¹² MAC/saniye = 4.4 TOPS per crossbar.

Y1 6400 crossbar paralel → teorik 28 POPS. Pratik 30 TOPS (sequential bottleneck).

L3 · Derin

IR drop probleminin sayıları:

256 hücre paralel sürülüyor, her biri 50 µS @ 0.25 V → her hücre 12.5 µA.

Word-line akımı (worst case): 256 × 12.5 = 3.2 mA.

WL direnç 600 Ω → IR drop: 3.2 mA × 600 Ω = 1.9 V! Bu 0.25 V girişi tamamen yutar.

Düzeltme:

  • Aslında akım WL boyunca azalır (her hücre alır). Ortalama akım yarısı kadar.
  • Çift-uçlu WL sürücü (her iki uç beslenir).
  • Geniş tel (50 nm × 100 nm) → direnç düşer.
  • Sonuç: ~5-10% IR drop pratik (Modül 5.12’de tam analiz).

Sneak path:

1T1R’da transistör sneak path’i engeller — sadece seçili hücreden akım geçer.

1R/1S1R’da sneak path engelleme stratejileri:

  • Yarı-seçim (V/2 schemes): yarı voltaj uygula → sneak akım düşer ama yine var.
  • OTS selector (1S1R): voltaj eşik altı = açık değil.
  • Negatif voltaj kullanma: sadece bir yöne akım.

SIDRA Y1 1T1R kullanır → sneak path sıfır. Y10 1S1R 3D istif için OTS NbOx (Modül 2.3).

Sourcing impedance:

Word-line sürücü çıkış impedansı (R_drv) kritik. Yüksekse → IR drop büyür. Düşükse → büyük transistör → büyük alan.

SIDRA Y1: R_drv ≈ 50 Ω, transistör genişlik 1 µm.

Layout pratiği (1T1R):

Bir 1T1R hücresi ~6F² alana sığar (F = minimum feature):

  • 28 nm Y1: 6 × 28² = 4700 nm² ≈ 70 nm × 70 nm. Plus contact + via.
  • Pratik 100 nm × 100 nm = 10000 nm² (margin için).

256×256 crossbar fiziksel layout:

  • Active alan (memristör): 25.6 µm × 25.6 µm.
  • Periferik: WL/BL sürücüler, ADC, DAC ekstra ~50 µm her yön.
  • Toplam crossbar bloğu: ~125 µm × 125 µm = 15625 µm².

Y1 die alanı 1 cm² = 10⁸ µm². 6400 crossbar × 15625 = 10⁸ µm². Tam Y1 die’ı doldurur (CMOS taban + ADC + interconnect dahil).

Çoklu metal katmanı:

WL: M3 metal katmanı. BL: M4 metal katmanı. Memristör cell: M3-M4 arası BEOL’de inşa. 1T1R transistörü: 28 nm CMOS tabanda (M1 öncesi). Power/ground: M5+ üst katmanlarda.

20-katman BEOL Y1’de bu yapı kompakt.

Deney: 256×256 Crossbar MVM Süresi vs CPU

İş: 256-vektör × 256×256 matris.

SIDRA Y1 crossbar:

  • DAC setup: 5 ns
  • Crossbar settling: 5 ns
  • ADC: 5 ns
  • Toplam: 15 ns
  • 65,536 MAC + 65,280 add = ~131K op
  • Throughput: 8.7 TOPS per single crossbar

Modern CPU (Intel Xeon, AVX-512):

  • 1 GHz, 16 MAC/cycle (AVX-512)
  • 16 GMAC/s = 16 GOPS
  • 256×256 MVM: 65K MAC / 16G = 4 µs
  • Crossbar 4000 / 15 = 266× daha hızlı

GPU (H100, FP16):

  • 1 PFLOPS sustained ≈ 500 TMAC/s
  • 256×256 MVM: 65K MAC / 500T = 130 ns
  • Crossbar 130 / 15 = 8.7× daha hızlı (single crossbar vs whole H100)

Ama H100 paralel 1000+ thread çalıştırır. SIDRA Y1 6400 crossbar paralel.

Karşılaştırma (toplam throughput):

  • Y1: 6400 × 4.4 TOPS = ~30 POPS analog.
  • H100: ~1 PFLOPS (FP8 sparse). 30× kötü.
  • Ama H100 dinamik (her batch farklı), Y1 statik (model sabit).

Enerji/MAC:

  • CPU: ~1000 pJ (cache + DRAM dahil).
  • GPU H100: ~10 pJ (HBM dahil).
  • SIDRA Y1: ~0.05 pJ (crossbar) + 0.05 pJ overhead = 0.1 pJ.
  • SIDRA 100× verimli.

Sonuç: Aynı MVM için SIDRA crossbar saniyeler değil mikrosaniye değil — nanosaniye. Enerji/operation H100’den 100× az.

Kısa Sınav

1/6256×256 SIDRA crossbar'da kaç memristör vardır?

Laboratuvar Görevi

SIDRA Y1 crossbar’a 4-katmanlı CNN haritalama.

Model: ResNet-18 küçük CNN, ImageNet inference.

  • 11M parametre, 1.8 GFLOP/inference.
  • 4 ana conv katmanı + FC.

Her conv katmanı boyutları:

  • Conv1: 3×3 × 64 filter, 224×224 imge.
  • Conv2: 3×3 × 128 filter.
  • Conv3: 3×3 × 256 filter.
  • Conv4: 3×3 × 512 filter.
  • FC: 512 × 1000 (ImageNet sınıf).

Sorular:

(a) Toplam parametre 11M; SIDRA Y1 (419M hücre) yüzde kaçını kullanır? (b) Conv1: 3×3 = 9 input × 64 output kernel → matris boyutu? Kaç crossbar? (c) Tüm CNN için kaç crossbar? (d) Inference süresi (sliding window konvolüsyon, ~28×28 spatial output ortalama)? (e) Inference enerjisi?

Çözümler

(a) 11M / 419M = %2.6. Y1 ResNet-18 için fazlasıyla büyük. Geri kalan başka modeller veya batching.

(b) Conv1 ağırlık matrisi: 9 input × 64 output = 9 × 64 = 576 ağırlık per kernel slot. Tek kernel’i 3×64 + 3×64 boyutunda crossbar. 256×256 crossbar’a sığar — 1 crossbar yeter Conv1 için.

(c) Toplam: ~50-100 crossbar (her conv ~10-20). FC: 512 × 1000 → 2 × 4 = 8 crossbar. Total ~70 crossbar, Y1’in %1’i.

(d) Sliding window Conv1: 224 × 224 = 50,176 sliding position. Her biri 1 MVM × 15 ns = 750 µs Conv1 için. Daha derin katmanlar 28×28, 14×14 — daha az pozisyon. Toplam inference: ~5-10 ms. Real-time kamera için yeterli.

(e) Toplam MAC: 1.8 G. SIDRA 0.1 pJ/MAC → 180 mJ. Hayır, yanlış. 1.8 GFLOP = 1.8 × 10⁹ × 0.1 pJ = 0.18 mJ. Inference enerjisi ~0.2 mJ. Çok az.

Sonuç: Real-time ResNet-18 inference (30 fps) Y1’de 6 mJ/saniye = 6 mW. TDP 3W’ın çok altında — başka modeller paralel çalıştırılabilir.

Özet Kart

  • Crossbar: dik 2 tel kümesi + kavşaklarda memristör.
  • 256×256 = 65K MAC paralel.
  • MVM süresi: ~10-15 ns (DAC + Ohm settling + ADC).
  • Throughput: 4.4 TOPS/crossbar.
  • Y1: 6400 crossbar → 30 TOPS gerçek (overhead’le).
  • Hücre yapısı: 1T1R Y1 (sneak path yok).
  • Layout: 25 µm aktif, 125 µm bloğu (periferal dahil).
  • IR drop: WL’de ~5-10% pratik, Modül 5.12’de detay.
  • Enerji/MAC: ~0.1 pJ (CPU 1000×, GPU 100× kötü).

Vizyon: Daha Büyük, Daha Yoğun, Daha Üç-Boyutlu

Crossbar tasarımı evrim gösterir:

  • Y1 (bugün): 256×256, 1T1R, 100 nm hücre, 28 nm CMOS taban.
  • Y3 (2027): 512×512, daha sıkı 1T1R, 70 nm hücre, 14 nm CMOS.
  • Y10 (2029): 1024×1024, 1S1R 3D-stack 4 katman, 28 nm hücre, 7 nm CMOS.
  • Y100 (2031+): 4096×4096, fotonik bağlantılı, 14 nm hücre. 3D istif 16 katman. Tek çipte 100B hücre.
  • Y1000 (uzun vade): Crossbar = bilgisayarın temel yapı taşı, CPU yok. Tüm hesaplama crossbar’da.

Türkiye için anlam: Crossbar tasarımı yarı iletken endüstrisinin yeni alt-kategorisi. Klasik CPU/GPU dışında, daha az dolu, açık alan. Türkiye’nin teknik yeteneği yetebilir — fab altyapısı sınır faktörü. SIDRA atölyesi bu sınırı aşan ilk somut adım.

Beklenmedik gelecek: Crossbar in everything. Telefonların, otomobillerin, beyaz eşyaların içinde küçük SIDRA crossbar’ları yerel AI yapar. Bulut bağımlılığı düşer. Yerel-AI çağı. 2030+ ufku.

Daha İleri

  • Bir sonraki bölüm: 5.4 — YILDIRIM Çip Mimarisi
  • Önceki: 5.2 — Memristöre Derin Dalış
  • MVM matematiği bağlantı: 4.2 — Ohm + Kirchhoff = Analog MVM
  • Crossbar tarihçe: Borghetti et al., ‘Memristive’ switches enable ‘stateful’ logic operations via material implication, Nature 2010.
  • 1T1R tasarım: Sheu et al., A 4Mb embedded SLC resistive-RAM macro with 7.2 ns read-write random-access time…, ISSCC 2011.
  • Crossbar review: Yu, Neuro-inspired computing with emerging nonvolatile memory, Proc. IEEE 2018.