Olasılık ve Gürültü
Memristör gürültüsü hata değil, bazen özelliktir.
Bu bölümde öğreneceklerin
- Rastgele değişken, beklenen değer (E), varyans (Var) tanımlarını yaz
- Normal (Gauss), Bernoulli, Poisson dağılımlarının formüllerini ve uygulama alanlarını söyle
- Termal (Johnson), shot, 1/f gürültü kaynaklarının fizik formüllerini açıkla
- Bir SIDRA crossbar'ında SNR (Signal-to-Noise Ratio) hesapla
- Gürültünün AI'da bazen yararlı olduğunu (regularizer, dropout) göster
Açılış: Mükemmellik Mümkün Değil — ve Gerekli de Değil
İdeal bir çip: her sinyal kesin, her ölçüm doğru, her hesap deterministik. Pratik bir çip: her sinyalde gürültü, her ölçümde hata, her hesapta tahmin.
SIDRA Y1 hücresi 8-bit (256 seviye) iletkenlik saklıyor. Ama termal gürültü, shot gürültü, drift, IR drop, sıcaklık dalgalanması nedeniyle etkin doğruluk ~6 bit. 2 bit kaybediyor. Bu sorun mu?
Cevap: Genelde değil. Bazen avantaj.
- AI inference için 6 bit yeterli (INT8 standart, INT4 bile yaygın).
- Gürültü, klasik AI’da regularizer rolü oynar (dropout, weight noise).
- Beyin sinapsı zaten gürültülü (vesicle olasılıksal) — özellik, bug değil.
- SIDRA’nın gerçek konumu: “deterministik dijital” değil, “gürültülü ama verimli analog”.
Bu bölüm olasılık temellerini, gürültünün kaynaklarını, SIDRA’da nasıl ölçüldüğünü, ve nasıl kontrolaltına alındığını anlatır. Sonunda gürültünün AI öğrenmesinde yardımcı olabileceğini göstereceğiz.
Sezgi: Olasılık ve Beklenen Değer
Rastgele değişken (RV): değeri rastgele olan bir değişken.
- Bir zar atışı: , eşit olasılık.
- Bir memristör okuma akımı: , “doğru” değer, Gauss gürültü.
Olasılık dağılımı: her değerin olasılığı.
- Zar: her için.
- Memristör: — sıfır ortalama Gauss.
Beklenen değer (E): uzun vadede ortalama.
- Zar: .
- Memristör: (gürültünün ortalaması sıfır).
Varyans: ortalamadan ne kadar saçılım.
- Zar: .
- Memristör: .
Standart sapma: . Aynı birimde, “tipik sapma” boyutu.
- Memristör: . Tipik SIDRA: of .
Sezgi: Tek ölçüm gürültülü ama çoklu ölçüm ortalaması çok daha hassas. Merkezî limit teoremi: örnek ortalamasının standart sapması . 100 ölçüm → 10× iyileşme.
SIDRA pratik kullanım: Bir MVM 100 µs’de 10× tekrarlanırsa, etkin doğruluk 6 bit → ~9 bit’e çıkar. Ama hız 10× düşer. Trade-off.
Formalizm: Dağılımlar, Gürültü Modelleri, SNR
Üç temel dağılım:
Bernoulli: , .
- Beklenen değer: .
- Varyans: .
- Kullanım: tek-bit olay (vesicle salımı, bit okuma).
Normal (Gauss): .
- Yoğunluk: .
- , .
- Kullanım: termal gürültü, ölçüm hatası, ağırlık başlangıç.
Poisson: , .
- .
- Kullanım: spike sayımı, foton sayımı, cevheri olay.
Beklenen değer kuralları:
- Lineerlik: .
- Bağımsız ise: .
Varyans kuralları:
- .
- Bağımsız ise: .
Üç fiziksel gürültü kaynağı:
1. Termal gürültü (Johnson-Nyquist):
- = Boltzmann (1.38 × 10⁻²³ J/K)
- = sıcaklık (K)
- = iletkenlik (S)
- = bant genişliği (Hz)
Sayısal: K, µS, MHz → A = 12.9 nA.
Tipik MVM çıkış akımı: 1-10 µA → SNR = 10⁵ × 12.9 nA = ~ → 30-40 dB.
2. Shot gürültü:
- = elektron yükü (1.6 × 10⁻¹⁹ C)
- = ortalama akım
Sayısal: µA, MHz → = 5.7 nA.
Düşük akımda baskın. Termal ile aynı mertebe.
3. 1/f gürültü (flicker):
- = malzeme sabiti (HfO₂ için ~10⁻¹¹).
Frekans düştükçe artar (yavaş drift kaynağı). Uzun retention için baskın gürültü.
Toplam gürültü (üç kaynak bağımsız):
SNR (Signal-to-Noise Ratio):
dB cinsinden: .
- 30 dB → 1000× signal:noise → ~5 etkin bit.
- 40 dB → 10000× → ~6.5 etkin bit.
- 60 dB → 10⁶× → ~10 etkin bit.
SIDRA Y1 hedefi: ~30-40 dB.
Crossbar gürültüsü detayı:
256×256 crossbar’da bir sütundaki toplam akım gürültüsü:
Yani .
Sinyal de toplanır: (ortalama).
SNR: .
Crossbar SNR hücre SNR’sinden kat iyi. İyi haber.
Programlama gürültüsü:
Memristörü hedef ‘ye programlamak imkânsız tam doğru. ISPP sonrası , (ISPP) veya (basit).
Bu gürültü kalıcıdır — termal gibi her ölçümde değişmez. AI’da “weight quantization noise” rolü oynar. Modern DL bu gürültüyü tolere edecek şekilde tasarlanır (post-training quantization).
Drift:
İletkenlik zamanla yavaşça değişir: . Tipik: 1 yılda ~%5 sapma.
Çözüm: periyodik refresh (her ay birkaç hücre yeniden programlanır) veya drift-aware compiler (önceden tahmin edip kompanse eder).
Gürültü AI için zararlı mı?
Şaşırtıcı: çoğu zaman değil, hatta yardımcı:
- Weight noise = stochastic regularizer: ağırlıklara biraz gürültü eklemek overfitting’i azaltır (Hinton et al. 1992).
- Dropout: training sırasında nöronları rastgele kapat → daha sağlam model. SIDRA’nın doğal “sneak path” gürültüsü buna benzer etki yapabilir.
- Stokastik gradient: SGD’nin gücü gürültü → iyi minimum.
- Bayesian ağlar: ağırlıklar aslında dağılımlardır. SIDRA donanım gürültüsü doğal olarak bunu üretir.
SIDRA Y10 hedefi: kontrollü stokastik memristör — gürültü miktarı tasarımla ayarlanabilir. AI türüne göre optimize.
Deney: Bir Hücrenin SNR'ını Hesapla
SIDRA Y1 hücresi:
- µS (HRS-LRS arası)
- V (okuma voltajı)
- K
- MHz
- ISPP programlama gürültüsü: → µS
Sinyal akımı: µA.
Termal gürültü: nA.
Shot gürültü: nA.
Programlama gürültüsü (akım cinsinden): µA = 250 nA.
Toplam: nA.
Programlama gürültüsü baskın (termal/shot ile karşılaştırıldığında çok büyük).
SNR: dB.
Etkin bit: bit.
Crossbar seviyesinde (256 sütun): SNR 256× artar → , ~42 dB, ~7 etkin bit.
Sonuç: SIDRA Y1 sütun başına ~7 bit etkin doğruluk. INT8 inference için yeterli, FP32 değil.
İyileştirme yolları:
- ISPP daha sıkı: → programlama gürültüsü %50 düşer.
- Çoklu okuma (4 ortalama): %50 düşer.
- Soğuk çalışma (T = 250 K): termal gürültü %15 düşer.
Y10 hedefi: ~50 dB SNR, ~9-10 etkin bit.
Kısa Sınav
Laboratuvar Görevi
SIDRA Y1 ile MNIST sınıflandırma SNR analizi.
Senaryo:
- MNIST: 28×28 = 784 piksel, 10 sınıf.
- 2-katmanlı MLP: 784 × 128 → 128 × 10.
- Her katman SIDRA crossbar’larında: ilk katman 4 crossbar (256×256), ikinci katman 1 crossbar.
- Her hücre: 6-7 bit etkin SNR.
- Inference: 1 forward pass.
Veri:
- Tipik MNIST sınıflandırma doğruluğu (FP32 model): %98.
- INT8 quantize sonrası: %97.5 (1% kayıp).
- INT4 quantize: %94 (4% kayıp).
- 6-bit etkin (SIDRA): %96-97 beklenir.
Sorular:
(a) Tek inference için kaç MVM? Kaç ns? (b) Her MVM’de ne kadar gürültü ekleniyor (ortalama akım × 5%)? (c) 2-katmanlı sonra çıkışta toplam gürültü nasıl birikir? (d) %96 sınıflandırma doğruluğu sağlamak için kaç MVM averaging gerekir? (e) Bu averaging inference süresini ne kadar uzatır? Pratik mi?
Çözümler
(a) İlk katman: 784×128. Crossbar 256×256 → 4 MVM (paralel). İkinci katman: 128×10 → 1 MVM. Toplam 5 MVM, ardışık. Süre: 5 × 10 ns = 50 ns.
(b) Her MVM çıkış akımı ~10 µA. Programlama gürültüsü %5 → 0.5 µA. Termal/shot ~50 nA. Toplam ~510 nA per output → ~5% relative.
(c) İki katman ardışık → gürültü RMS toplanır: relative. Sınıflandırma marjı bunun üstünde olduğu sürece doğruluk korunur.
(d) 5-bit etkin → ~%93 doğruluk. 6-bit (sigle MVM) → %96. 7-bit (4× averaging) → %97-98. 4 averaging yeter.
(e) 4× averaging süre: 4 × 50 ns = 200 ns/inference. Hala saniyede 5M inference. Pratik. SIDRA Y1 5M MNIST/s. Karşılaştırma: H100 ~100M MNIST/s, ama 700W. SIDRA ~150× yavaş ama 230× az enerji.
Not: Y1 MNIST için aşırı büyük (419M hücre, 100K MNIST modeli yeter). Asıl rol: küçük modelleri çoklu paralel çalıştırma (batch inference).
Özet Kart
- Rastgele değişken: rastgele değer alan değişken. = beklenen değer, = saçılım.
- Üç dağılım: Normal (gürültü), Bernoulli (ikili olay), Poisson (sayım).
- Üç gürültü: Termal (4kTG·Δf), Shot (2qI·Δf), 1/f (drift).
- Toplam gürültü: .
- SNR: sinyal²/gürültü². dB = 10 log₁₀ SNR.
- Crossbar SNR: hücre SNR × N (paralellik kazandırır).
- SIDRA Y1: ~30-40 dB SNR, ~6-7 etkin bit.
- Gürültü = özellik: stokastik regularizer, dropout etkisi, Bayesian ağlar.
Vizyon: Gürültüyü Bir Tasarım Aracı Yapmak
Klasik mühendislik: gürültü düşman. Modern AI: gürültü dost. SIDRA bu paradigmayı silikona getirir:
- Y1 (bugün): Gürültü “kabul edilen kötülük” — INT8 inference için yeterli.
- Y3 (2027): ISPP iyileştirme + sıcaklık kompansasyonu → SNR 50 dB, 9 bit.
- Y10 (2029): Kontrollü stokastik memristör — gürültü miktarı programlanabilir. Bayesian ağlar, dropout-replikasyon, stokastik MAC için.
- Y100 (2031+): Gürültü-aware compiler — model her hücrenin gürültü profiline göre eğitilir. Donanım-yazılım co-design.
- Y1000 (uzun vade): Gürültü-enerji co-optimization. AI modelleri gürültüyü hesap kaynak olarak kullanır (sampling, MCMC).
Türkiye için anlam: Gürültü-tolerant AI tasarım yarışı yeni başladı. SIDRA bu yarışta erken adım. Akademi + atölye + endüstri (ASELSAN, Aselsan AI gibi) birleşince Türkiye’nin ilk ulusal “gürültü-aware AI mimarisi” çıkar.
Beklenmedik gelecek: Stokastik AI çağı. Bugünkü deterministik modeller yerine olasılıksal cevaplar veren AI (cevabın dağılımı, güveni). Bu beyne benzer; SIDRA donanım stokastisitesi doğal taşıyıcı. ChatGPT’nin Y100 versiyonu sadece “cevap” değil “cevap + güven aralığı” verir.
Daha İleri
- Bir sonraki bölüm: 4.5 — Fourier Dönüşümü
- Önceki: 4.3 — Türev ve Gradient
- Olasılık temeli: Ross, A First Course in Probability.
- Stokastik süreçler: Ross, Introduction to Probability Models.
- Termal gürültü: Nyquist, Thermal agitation of electric charge in conductors, Phys. Rev. 1928.
- Shot gürültü: Schottky orijinal 1918.
- Memristör gürültü: Suri et al., Physical aspects of low power synapses based on phase change memory devices, Journal of Applied Physics 2012.
- AI’da gürültü regularizer: Hinton et al., Improving neural networks by preventing co-adaptation of feature detectors, arXiv 2012 (dropout).
- Bayesian sinir ağları: Neal, Bayesian Learning for Neural Networks, Springer 1996.