🧭 Modül 0 · Karşılama · Bölüm 0.1 · 12 dk okuma

SIDRACHIP Nedir?

Bellek duvarının öteki tarafındaki çip.

Bu bölümde öğreneceklerin

  • Neden modern yapay zekâ 'bellek duvarına' tosluyor, kısaca anlat
  • Von Neumann mimarisi ile yerinde hesaplama (in-memory computing) farkını bir çizimle anlat
  • SIDRACHIP'in neden 'memristör tabanlı analog AI çipi' olduğunu kendi sözlerinle söyle
  • YILDIRIM Y1 / Y10 / Y100 ürün ailesini birbirinden ayır

Açılış: Beyin 20 Watt, NVIDIA 1500 Watt

Bir laptop kadar yeri kaplayan insan beyni 20 watt ile bir şiir yazar, bir şakayı anlar, bir ağacı tanır. Aynı işleri yapması için NVIDIA H100 700 watt, bir sunucu dolusu olunca 1500+ watt çeker. Aradaki 75בlik fark bir mühendislik tuhaflığı mıdır, yoksa mimarinin ta kendisi mi?

Cevap: ikincisi. Hem de çok açık bir sebeple. 1945’te von Neumann’ın yazdığı o meşhur notta bilgisayarın iki ayrı parçası vardı: bellek ve hesap birimi. Bu iki kutu arasında bir otoyol (bus). Aradan 80 yıl geçti; modern GPU’larda da hâlâ aynı otoyol var — sadece şimdi saniyede 3 terabayt veri aşağı-yukarı gidiyor. Otoyolun kendisi bile artık bir enerji çukuru hâline geldi. Buna bellek duvarı (memory wall) diyoruz.

SIDRACHIP, duvarın öteki tarafındaki çip.

Sezgi: Bellek ve Hesap Aynı Yerdeyse?

Şunu hayal et:

  • Klasik GPU: Bir kütüphanede oturuyorsun. Her hesap için kalkıp rafa kadar git, kitabı al, masaya dön, oku, hesapla, kitabı geri götür. Her sefer 10 metre yürüyorsun.
  • Memristör crossbar: Kütüphane kendisi hesap yapabiliyor. Soruyu rafın önünde sor, cevap rafın içinde belirsin. Hiç yürümüyorsun.

“Rafın içinde hesap” demek abartı değil — tam olarak böyle oluyor. Bir memristör (hafızalı direnç) hem bir sayıyı (ağırlığı) saklar hem de elektrik uygulandığında Ohm Yasası ile o sayıyla çarpım yapar. 256 satır × 256 sütunluk bir crossbar kurup her satıra farklı giriş voltajları uygularsan, her sütundan toplanan akım sana o sütundaki ağırlık vektörünün girişle iç çarpımını verir. 256 sütun aynı anda çalıştığı için — 256 boyutlu matris-vektör çarpımı, tek saat döngüsünde, analog olarak.

Üstteki animasyonda solda klasik GPU’nun bellek↔hesap trafiğini, sağda SIDRA’nın yerinde hesaplamasını izleyebilirsin. “Başlat” düğmesine bas, birkaç saniye sonra enerji farkını say.

Formalizm: Von Neumann Darboğazı ve İçinde Hesaplama

L1 · Başlangıç

Bir cümleyle: Klasik bilgisayarlarda bellekten hesap birimine veri taşımak, hesabın kendisinden çok daha pahalıdır. SIDRACHIP bu taşımayı ortadan kaldırır.

L2 · Tam

Bir MAC (multiply-accumulate — çarp-topla) işleminin maliyetini ikiye ayıralım:

Etoplam=Ehesap+Etas¸ımaE_{\text{toplam}} = E_{\text{hesap}} + E_{\text{taşıma}}

28 nm CMOS teknolojisinde tipik değerler:

İşlemEnerji
32-bit FMAC~3 pJ
DRAM’den 32-bit okuma~640 pJ

Yani GPU’da her hesabın enerjisinin ~99.5%‘i taşımaya gidiyor.

Analog MVM ise şunu yapar: Crossbar’ın satırlarına giriş voltajları v\mathbf{v} uygula, kesişimlerdeki memristörler iletkenlik GijG_{ij} (yani WijW_{ij}) olarak bekliyor zaten. Her sütunda toplanan akım Kirchhoff’un akım yasasıyla

Ij=iviGijI_j = \sum_i v_i \cdot G_{ij}

yani vektör–matris çarpımı fiziksel olarak çözüldü. Tek saat döngüsü, tek “yürüyüş” yok.

L3 · Derin

Ölçekleme bakışı: Wulf ve McKee 1994’te şu gözlemi yaptı — CPU hızı yılda %60 artarken DRAM erişim süresi yalnızca %7 hızlanıyor. Bu makas 30 yıldır açıldığı için modern sistemlerde hesap bekleme, taşıma enerji; her ikisinde de darboğaz = bellek. Modern LLM’lerde parametre sayısı O(1011)\mathcal{O}(10^{11}) ve her inference bu parametrelerin önemli bir kısmını DRAM’den çekiyor. Kesin formülle, transformer decode’da FP16 ağırlıklar için:

Arithmetic Intensity=FLOPs/tokenbytes moved/token2Nparam2Nparam=1\text{Arithmetic Intensity} = \frac{\text{FLOPs/token}}{\text{bytes moved/token}} \approx \frac{2 \cdot N_{\text{param}}}{2 \cdot N_{\text{param}}} = 1

yani her byte başına sadece ~1 FLOP yapılıyor. GPU’ların teorik performansı bu orana ulaşamaz — “memory bound” rejime düşer. In-memory computing bu oranı sonsuza iter çünkü veri “hareket etmez”.

YILDIRIM Y10 için teorik sayım: 20 katman × ~793.000 subarray/katman × (256×256) hücre ≈ 1,04 trilyon memristör (256 CU bu subarray sayısına zaten dahil). Peak ~3.400 TOPS, ~97 TOPS/W — aynı iş yükü için NVIDIA B300’ün ~2.4× üstü.

Deney: Enerji Sayacını İzle

Hemen yukarıda animasyonu oynattığını varsayıyorum. Şunu dene:

  1. Animasyonu 10 saniye çalıştır.
  2. Sol tarafın (GPU) ve sağ tarafın (SIDRA) enerji sayaçlarını not et.
  3. Oranı hesapla: GPU_enerji / SIDRA_enerji. Ortalama ~100 civarında bir sayı görmelisin.

Bu sayı uydurma değil — animasyondaki sabitler gerçek dünya ölçümleriyle aynı mertebede (DRAM okuma ~640 pJ vs analog MVM ~5 pJ/işlem). Elbette gerçek rakamlar iş yüküne göre değişir; önemli olan mertebe farkı.

Kısa Sınav

1/4Modern GPU'larda bir 32-bit FMAC işleminin maliyetinin yaklaşık yüzde kaçı DRAM'den veri taşımaya gider?

Laboratuvar Görevi: Kendi Bellek Duvarını Hesapla

Bu görev kâğıt-kalem (veya tercihen kalem + kafa).

Bir ResNet-50 ağı inference zamanında yaklaşık 4 milyar MAC yapar ve 25 milyon parametreye (ağırlığa) erişir. Ağırlıklar FP32 (4 byte/ağırlık) saklansın; DRAM okuması her 32-bitlik erişim için ~640 pJ yaksın.

  1. 25M parametre kaç toplam byte eder?
  2. Parametrelerin her biri inference boyunca bir kez DRAM’den okunuyor varsayılırsa, kaç tane 32-bitlik okuma yapılır?
  3. Bu okumaların toplam taşıma enerjisi kaç milijoule?
  4. Hesap enerjisi: 4 milyar MAC × 3 pJ/MAC kaç milijoule?
  5. Oranı bul: taşıma / hesap. Bu ResNet-50’nin “bellek duvarı katsayısı”dır.
  6. (Düşün) GPT-3 175B için 700 kat daha çok parametre ama MAC sayısı yalnız ~800× artar. Katsayı nasıl değişir?
İpucu ister misin?
  • (1) 25·10⁶ × 4 = 10⁸ byte ≈ 100 MB.
  • (2) 25 milyon 32-bitlik okuma (her parametre bir 32-bit okuma).
  • (3) 25·10⁶ × 640 pJ = 1.6 × 10¹⁰ pJ = 16 mJ.
  • (4) 4·10⁹ × 3 pJ = 1.2 × 10¹⁰ pJ = 12 mJ.
  • (5) 16 / 12 ≈ 1.33×. ResNet-50 kısmen memory-bound; %57’si taşıma, %43’ü hesap.
  • (6) LLM’lerde her token için tüm ağırlıklar okunur ama MAC sayısı ağırlık sayısıyla sabit oranda (~2×/token). Aritmetik yoğunluk ~1 FLOP/byte’a sıkışır ve katsayı 50-100בe çıkar. Bu yüzden LLM inference’ta SIDRA’nın avantajı ResNet’ten çok daha büyük.

Özet Kart

  • Bellek duvarı: Modern CPU/GPU’da enerjinin büyük kısmı hesap değil, veri taşıma.
  • Yerinde hesaplama (in-memory): Bellek hücresinin kendisi hesap yapar → taşıma enerjisi sıfıra yakın.
  • Memristör: Hafızalı direnç. İletkenliği ayarlanabilir, elektrik uygulandığında Ohm + Kirchhoff ile analog MVM çözer.
  • SIDRACHIP: Memristör crossbar + 28 nm CMOS taban → CuM (CMOS-under-Memristor) mimarisi.
  • Ürün ailesi:
    • Y1 / SIDRA ZERRE — 4 katman, 16 CU, 52 TOPS, 2026 Q4 PoC
    • Y10 / SIDRA AZIM — 20 katman, 256 CU, 3.400 TOPS, 2027 Q3 üretim
    • Y100 / SIDRA EFLAK — 50-100+ katman, fotonik I/O, 10.000+ TOPS, 2029-30 vizyon
  • Sayıları neden önemsiyoruz: Aynı iş için NVIDIA’nın ~1/25 enerjisi. Bu bir rakam değil, bir paradigma.

Vizyon: SIDRA'nın Ötesi

SIDRA memristör tabanlı analog AI çipinin bir varyasyonu. Post-Y100 peyzajında yarışan paralel paradigmalar:

  • Nöromorfik full-stack: Intel Loihi 2 (spike-based, 1M nöron), IBM NorthPole (analog MAC + digital sparsity). Memristör değil SRAM tabanlı, farklı trade-off.
  • Kuantum AI hızlandırıcıları: IBM Heron (156 kübit) + klasik NN hibridleri. Kuantum momentum için özel dar algoritmalar.
  • Fotonik AI: Lightmatter, Lightelligence — silisyum fotonik + MZI mesh ile MVM. SIDRA Y100 bu yolda fotonik giriş ekler.
  • DNA depolama + hesaplama: petabit/cm³, arşiv ölçeği. Mikrosaniye değil saatler hız; tamamen farklı tapa.
  • Biyolojik beyin-makine: organoid koşullu öğrenme (FinalSpark 2024). Tahminen 10 yılda ciddi değil, ama araştırma çok canlı.
  • Süperiletken NN: 4K’da Josephson eklemleri ile SFQ (single flux quantum) nöronlar — SIDRA’nın 10³× enerji karşılığı.
  • Moleküler bilgisayar: DNA-origami devre, enzim katalizi ile hesap — paralel, düşük hız, biyouyumlu.
  • 3D chiplet ekosistemi: UCIe standardı, heterojen istif; SIDRA chiplet olarak GPU yanında paralel çalışır.

Önemli ders: SIDRA bir yaklaşım, tek değil. Modül 3’te biyolojik nöron/sinaps ile memristör paraleline döneceğiz; orada bu vizyonun neden bu kadar zengin olduğu netleşir.

Post-Y10 SIDRA için en büyük lever: fotonik-elektronik hibrit + chiplet. Optik interconnect veri taşıma bant genişliğini 100בa çıkarır; chiplet mimarisi her jenerasyonda sadece “AI tile’ı” güncellemeyi mümkün kılar. Toplam sistem performansı 10×, güç sabit. 2028-2032 ufku.

Daha İleri

  • Bir sonraki bölüm: 0.2 — Bu Kitabı Nasıl Okumalıyım?
  • Referans: Master Spec v3.0 — docs/specifications/master/PA-MASTER-SPECIFICATION-v3.0.md
  • Akademik: W. A. Wulf, S. A. McKee, Hitting the Memory Wall, 1994 — terimin doğduğu makale.
  • Akademik: L. Chua, Memristor — The Missing Circuit Element, IEEE TCT 1971 — memristörün teorik doğuşu (40 yıl sonra HP Labs fiziksel olarak yaptı).