🔌 Modül 5 · Çip Donanımı · Bölüm 5.4 · 14 dk okuma

YILDIRIM Çip Mimarisi

SIDRA'nın ilk nesil çip spec'i — Y1'in tam mimari haritası.

Bu bölümde öğreneceklerin

  • YILDIRIM Y1 çipinin 4-katmanlı hiyerarşisini (crossbar → CU → cluster → chip) çiz
  • Her hiyerarşi katmanının fonksiyonel bileşenlerini (ADC, DAC, compute engine, DMA) say
  • Y1 çipinin güç, alan, throughput bütçesini detayla
  • CPU-SIDRA hibrit sistem mimarisini (PCIe bağlantı) açıkla
  • Y1'den Y100'e evrimi üst seviyeden özetle

Açılış: YILDIRIM'ın Bir Bakışta Tamamı

YILDIRIM, SIDRA YARI-İLETKEN’in ilk nesil nöromorfik AI çipidir. Y1 ürün spec’i:

  • Çip alanı: ~100 mm² (10 mm × 10 mm).
  • Süreç: 28 nm CMOS taban + HfO₂ BEOL memristör.
  • Transistör: ~4 milyar (28 nm CMOS).
  • Memristör: 419 milyon.
  • Ağırlık kapasitesi: 419 MB (8-bit per hücre).
  • Throughput: 30 TOPS analog.
  • TDP: 3 W.
  • Arayüz: PCIe 5.0 × 4 lane (16 GB/s).

Bu çip tek başına inference yapmaz — CPU ile hibrit çalışır. CPU kontrol akışı + non-MVM, YILDIRIM MVM’ler. Bu bölüm o mimariyi uçtan uca açıklar.

Sezgi: 4 Katmanlı Hiyerarşi

YILDIRIM Y1 fiziksel olarak 4 hiyerarşi katmanında düzenlenmiş:

Seviye 1: CROSSBAR (256×256 = 65K hücre)
    ↓ × 16
Seviye 2: COMPUTE UNIT (1M hücre + ADC/DAC + yerel kontrol)
    ↓ × 25
Seviye 3: CLUSTER (25 CU = 25M hücre + L2 bellek + DMA)
    ↓ × 17
Seviye 4: CHIP (17 Cluster = 419M hücre + PCIe + L3 bellek)

Yüksek seviyeden alt seviyeye:

SeviyeEleman sayısıToplam hücreEk bileşenler
Crossbar165,536WL/BL sürücü, hücre matrisi
CU16 crossbar1,048,576ADC sütunu (256), DAC sütunu (256), compute engine, yerel SRAM 128 KB
Cluster25 CU26,214,400DMA, yönlendirme matrisi, L2 SRAM 2 MB
Chip16 Cluster419,430,400PCIe controller, L3 SRAM 16 MB, saat ağacı, güç yönetimi

Neden hiyerarşik?

  1. Yerel hesaplama — iletişim mesafesini azalt.
  2. Paralel yürütme — farklı katmanlar farklı modeller çalıştırabilir.
  3. Güç yönetimi — CU/cluster seviyesinde aç/kapat.
  4. Ölçeklenebilirlik — Y10 aynı tasarımla 10× büyütülebilir.

Paralel throughput:

  • Crossbar: 4.4 TOPS (MVM at 67M/s × 65K).
  • CU: 4.4 × 16 = 70 TOPS (paralel 16 crossbar).
  • Cluster: 70 × 25 = 1.76 POPS.
  • Chip: 1.76 × 16 = 28 POPS (analog teorik).

Pratik: ADC/veri hareketi bottleneck → 30 TOPS gerçek Y1 figürü.

Formalizm: Y1 Çipi Bileşenleri Ayrıntılı

L1 · Başlangıç

Crossbar katmanı (5.3’te detayı):

  • 256 × 256 memristör.
  • Yerel WL/BL sürücüleri.
  • Fonksiyon: tek MVM, 15 ns.

Compute Unit (CU) bileşenleri:

  1. 16 crossbar (paralel erişim).
  2. 256 DAC (8-bit, 0.5 V range).
  3. 256 ADC (8-bit, ~1 pJ/conversion).
  4. Compute engine:
    • Aktivasyon fonksiyonları (ReLU, sigmoid, softmax) LUT.
    • Bias ekleme.
    • Skalar çarpım (scale factor).
    • Layer normalization (mean/std hesap).
  5. Yerel SRAM: 128 KB (ara aktivasyonlar için).
  6. Kontrol: durum makinesi, crossbar sırası.

CU süresi 1 MVM: ~15 ns analog + 5 ns dijital post-processing = 20 ns. 50M inference/saniye single-CU.

Cluster bileşenleri:

  1. 25 CU.
  2. DMA (Direct Memory Access): veri cluster içinde ve dışında taşır.
  3. Yönlendirme (Routing Matrix): 25 CU arasında veri akışı.
  4. L2 SRAM: 2 MB (model ağırlıkları cache, ara çıkış saklama).
  5. Güç kontrolü: CU başına güç açma/kapama.

Chip bileşenleri:

  1. 16 Cluster.
  2. PCIe 5.0 controller: host CPU ile iletişim.
  3. L3 SRAM: 16 MB (büyük ara output).
  4. Güç yönetimi: voltaj regülatörleri, saat ağacı, DVFS.
  5. Test ve kalibrasyon: her boot’ta crossbar kalibrasyon.
  6. Thermal sensörler: sıcaklık her Cluster’da ölçülür, throttle yapılır.
L2 · Tam

Y1 güç bütçesi (3 W TDP):

BileşenGüç payıAçıklama
Crossbar MVM~0.5 WTüm 6400 crossbar aktivite %20 (sparsity) ile
DAC~0.8 W6400 × 256 = 1.6M DAC, aktivite %30
ADC~1.0 W6400 × 256 = 1.6M ADC, her conversion 1 pJ × 50M/s
Compute engine~0.3 WAktivasyon, bias, scale
SRAM + DMA~0.2 WBellek erişimi
PCIe + saat~0.2 WArayüz, saat ağacı
Toplam~3.0 WTDP hedefi

Alan bütçesi (100 mm² die):

BileşenAlanYüzde
Crossbar aktif~4.2 mm²%4.2 (6400 × 656 µm²)
Crossbar periferal~20 mm²%20 (WL/BL sürücü, yerel kontrol)
ADC~25 mm²%25 (1.6M ADC)
DAC~10 mm²%10
Compute engine + SRAM~20 mm²%20
PCIe, I/O~15 mm²%15
Boş + routing~5 mm²%5
Toplam100 mm²-

ADC alan domine — tipik analog AI çipi sorunu. Y10 hedefi: ADC alanını %10’a indir (TDC teknolojisi, Modül 5.6).

Saat hızı:

  • CMOS taban (kontrol, compute engine): 1 GHz.
  • Crossbar analog: asenkron (saat yok, settling-based).
  • PCIe 5.0: 32 GT/s link rate.

DVFS (Dynamic Voltage and Frequency Scaling):

Çip aktivite durumuna göre voltaj/frekans ayarlar:

  • Boş: 100 MHz, 0.6 V → 100 mW.
  • Ortalama: 500 MHz, 0.8 V → 1 W.
  • Maksimum: 1 GHz, 1 V → 3 W.

CPU-SIDRA arayüzü:

Host CPU (örneğin Intel Xeon veya AMD EPYC) PCIe 5.0 üzerinden YILDIRIM’a bağlıdır:

  1. CPU modeli yükler (ağırlıklar crossbar’a programlanır).
  2. CPU input veriyi PCIe’den gönderir.
  3. YILDIRIM MVM’leri yapar.
  4. Çıktı PCIe üzerinden CPU’ya gönderilir.
  5. CPU non-MVM işlemler (softmax, tokenization, post-processing) yapar.

PCIe 5.0 bandwith: 16 GB/s. Yeterli mi? GPT-2 inference input: 512 token × 768 dim × 2 byte = 0.8 MB → 0.05 µs @ 16 GB/s. Throughput-sınırlı değil.

L3 · Derin

Veri yolu (tipik inference):

Host CPU (x86) 
    ↓ PCIe 5.0 (16 GB/s)
YILDIRIM Chip:
    L3 SRAM (16 MB) — input buffer
        ↓ DMA
    L2 SRAM (2 MB × 16 cluster) — aktif layer weight cache

    L1 SRAM (128 KB × 25 × 16 = 50 MB) — ara aktivasyonlar

    Crossbar (419 MB) — kalıcı ağırlıklar

    Compute Engine — aktivasyon, bias

    L3 SRAM — output buffer
        ↓ PCIe
Host CPU

Bellek hiyerarşisi (teorik):

  • Memristör: 419 MB (sabit, program-time yazılır).
  • L3 SRAM: 16 MB (ara çıktı, büyük buffer).
  • L2 SRAM: 2 MB × 16 = 32 MB.
  • L1 SRAM: 128 KB × 400 CU = 50 MB.

Toplam ~520 MB on-chip. Çok büyük değil ama her şey chip üstünde. External DRAM yok — bu SIDRA’nın von Neumann bypass iddiasıdır.

Yönlendirme matrisi:

Cluster içinde 25 CU arasında “routing”:

  • Her CU çıktısı diğer CU’lara yönlendirilebilir.
  • 25×25 routing matrix = 625 bağlantı noktası.
  • Her bağlantı bi-directional, 32 bit wide, 1 GHz → 4 GB/s per connection.
  • Toplam routing bandwidth: ~2.5 TB/s cluster içi.

Bu neden önemli? Derin modellerin ara çıkışları layer-to-layer akar. Routing matrix bu akışı destekler. YILDIRIM Y1 bir “graph-based” akış mimarisidir, ezbere sıralı değil.

Kalibrasyon ve test (boot-time):

Çip açıldığında:

  1. Sıcaklık ölçümü: her Cluster’da 4 thermal sensör.
  2. Voltaj kalibrasyonu: DAC referans voltajları ayarlanır.
  3. Crossbar sağlık kontrolü: her crossbar’dan 16 referans hücre okunur, sapma hesaplanır.
  4. ECC hazırlama: redundant hücreler ve parity ayarlanır.

Boot süresi: ~100 ms. Bir kez yapılır, inference süresini etkilemez.

Tolerance ve failure:

  • Crossbar başı %1 failed hücre tolere edilir (ECC).
  • Cluster başı 1 CU failure tolere edilir (redundant mapping).
  • Chip seviye %5 hücre failure → hâlâ %95 doğruluk.

Y1 üretim yield hedefi: %70-80. Failed çipler low-spec ürün olarak satılır (mobil, IoT).

Deney: Y1 Çipi vs H100 GPU — Inference Senaryosu

Senaryo: BERT-base (110M parametre) ile 1000 sentence NLU inference.

NVIDIA H100:

  • Model: 110M × 2 byte = 220 MB.
  • DRAM’dan yüklenir: 220 MB / 3 TB/s = 73 µs (bir kez).
  • Inference: 0.2 ms/sentence × 1000 = 200 ms.
  • Toplam: ~275 ms.
  • Enerji: 700 W × 0.275 s = 192 J.

SIDRA Y1:

  • Model: Y1 chip’ine bir kez yüklenir (gereken süre 640 ms, başlangıç sonrası).
  • Inference: 1 ms/sentence × 1000 = 1 sn.
  • Toplam: ~1 sn.
  • Enerji: 3 W × 1 s = 3 J.

Karşılaştırma:

  • H100 3.6× daha hızlı (latency).
  • SIDRA 64× daha verimli (enerji).

Batch vs tek:

  • H100 batch 32 ile 32× hızlanır → 8.4 ms/sentence batch.
  • SIDRA Y1 tek-sentence. Batch 32 yok — ama 32 sentence paralel farklı CU’larda işlenebilir → 1 ms/sentence paralel.

Sonuç:

  • Datacenter (çok sayıda istek, batch): H100 daha uygun.
  • Edge/embedded (tek cihaz, enerji kritik): SIDRA Y1 çok daha iyi.

Y10 hedefi: 30 TOPS → 300 TOPS. H100’ün inference performansını yakalar (eğitim hariç). Y100 ise H100’ü aşar (inference).

Kısa Sınav

1/6YILDIRIM Y1'in 4 seviyeli hiyerarşi nedir?

Laboratuvar Görevi

SIDRA Y1 çipinde GPT-2 small inference haritalama.

Model: GPT-2 small (124M parametre).

Sorular:

(a) GPT-2 Y1 hücre sayısının yüzde kaçı? (b) Attention bloğu başına kaç crossbar? (c) FFN başına kaç crossbar? (d) 12 bloğun tümü hangi cluster’lara yayılır? (e) Tek token inference süresi? (f) 1000 token (uzun metin) oluşturma süresi ve enerjisi?

Çözümler

(a) 124M / 419M = %29.6. Y1’in üçte biri. Başka modeller için %70 boş.

(b) Attention: 4 matris (Q, K, V, O) × 768 × 768. Her matris 3×3 = 9 crossbar → 36 crossbar/attention.

(c) FFN: W1 (768×3072) = 3×12 = 36 crossbar + W2 (3072×768) = 36 crossbar = 72 crossbar/FFN.

(d) 12 bloklar × (36 + 72) = 1296 crossbar. 1296 / (16 crossbar/CU) = 81 CU. 81 / 25 = ~3-4 cluster. Y1’in 16 cluster’ından 3-4 kullanır.

(e) Token inference: 12 block × (attention + FFN MVM’leri). Her MVM ~15 ns. Attention 6 MVM ardışık × 15 = 90 ns. FFN 2 MVM × 15 = 30 ns. Blok başı ~120 ns. 12 blok: ~1.4 µs/token.

(f) 1000 token × 1.4 µs = 1.4 ms. Enerji: 3 W × 1.4 ms = 4 mJ. Mobil laptop GPT-2 mümkün olur.

Karşılaştırma: H100 aynı 1000-token generation ~100 ms, 70 J. SIDRA 70× hızlı + 17000× daha verimli. H100 ama batch 32 token aynı anda → toplam throughput H100 favorunda büyük.

Özet Kart

  • 4 seviye hiyerarşi: Crossbar → CU → Cluster → Chip.
  • Y1: 6400 crossbar, 419M memristör, 100 mm², 3 W, 30 TOPS, PCIe 5.0 × 4.
  • Bileşenler: MVM crossbar, ADC/DAC, compute engine, L1/L2/L3 SRAM, DMA, PCIe.
  • Güç bütçesi: ADC ~%33, DAC ~%27, crossbar %17, compute ~%10, bellek/I/O %13.
  • Alan: ADC %25, periferik %20, compute/SRAM %20, I/O %15, crossbar %4.2.
  • CPU hibrit: CPU kontrol + non-MVM, YILDIRIM MVM.
  • Tolerance: %1 hücre + 1 CU + %5 genel failure tolere edilir.

Vizyon: YILDIRIM'ın Evrimi Y1→Y10→Y100

Y1 (2026-2027):

  • 28 nm CMOS, 100 nm hücre.
  • 419M memristör, 30 TOPS, 3 W.
  • Edge inference odaklı.

Y10 (2029-2030):

  • 14 nm CMOS, 70 nm hücre.
  • 10B memristör, 300 TOPS, 30 W.
  • 1S1R 3D-stack başlangıç.
  • TDC ADC teknolojisi.
  • Hibrit eğitim (son katman).
  • Datacenter deploys.

Y100 (2031-2033):

  • 7 nm CMOS, 28 nm hücre.
  • 100B memristör, 3 POPS, 100 W.
  • 1S1R 8-katman 3D.
  • Fotonik interconnect (wafer seviyesi).
  • Online learning donanımı (STDP).
  • GPT-3 inference tek çipte.

Y1000 (2035+):

  • 2D malzeme (MoS₂) hücre, 7 nm.
  • 1T memristör, süperiletken opsiyonu.
  • 100× Y100 performans.
  • Bio-uyumlu organik nesil prototip.

Türkiye için stratejik: Her nesil 2-3 yıl aralıkla çıkar → 2030 itibarıyla Türkiye üçüncü nöromorfik çip üreticisi (ABD, Çin sonrası). Bu, yarı iletken bağımsızlığının somut örneği.

Beklenmedik: YILDIRIM’ın farklı versiyonları farklı pazarlar:

  • YILDIRIM-mobile (düşük güç, batarya cihaz).
  • YILDIRIM-auto (otonom araç, sıcaklık).
  • YILDIRIM-medical (implant, bio-uyumlu).
  • YILDIRIM-space (radyasyon-toleran, uydu).

Daha İleri

  • Bir sonraki bölüm: 5.5 — DAC (SAR + ISPP)
  • Önceki: 5.3 — Crossbar Dizisi
  • Modern AI çip mimarileri: Jouppi et al., In-datacenter performance analysis of a tensor processing unit, ISCA 2017 (Google TPU).
  • Cerebras wafer-scale: Lie et al., Cerebras CS-2 Wafer-Scale System, HotChips 2022.
  • Compute-in-memory çipler: Ambrogio et al., An analog-AI chip for energy-efficient deep learning inference, Nature 2023.