📐 Modül 4 · Matematik Cephanesi · Bölüm 4.7 · 11 dk okuma

Bilgi Kuramı: Entropi ve Kanal

Bir bit ne kadar bilgi taşır — ve bir SIDRA hücresi ne kadar?

Bu bölümde öğreneceklerin

  • Shannon entropisini ($H = -\sum p \log p$) tanımla ve sezgisel anlamını söyle
  • Kanal kapasitesini ($C = B \log_2(1 + \text{SNR})$) ve Shannon-Hartley teoremini açıkla
  • Bir SIDRA hücresinin gerçek bilgi kapasitesini hesapla
  • AI'da bilgi kuramının (cross-entropy, KL divergence) rollerini özetle
  • SIDRA crossbar'ının teorik ve pratik bilgi limitlerini karşılaştır

Açılış: Bilgi Nedir?

Bir yazı tura atışını tahmin etmek istiyorsun. Sana cevap verilir → 1 bit bilgi aldın. Olasılık 50/50 → tam belirsizlik → “1 bit” ölçüsü.

Bir altı yüzlü zar atışı: cevap → log₂(6) ≈ 2.58 bit bilgi.

Eğer bir madeni para hile (yazı %99 olasılık) ise → cevap çoğunlukla beklenen → çok az bilgi (~0.08 bit). Bilgi = belirsizliğin azalması.

1948’de Claude Shannon, A Mathematical Theory of Communication makalesinde bilgiyi ölçtü. Aynı zamanda kanalın kapasitesini (saniyede ne kadar bilgi taşıyabileceğini) tanımladı. Bu makale modern iletişim, sıkıştırma, ve kriptografi’nin temelini attı.

SIDRA için ilginç soru: bir memristör hücresi pratikte ne kadar bilgi taşıyor? Teorik olarak 8 bit, ama gürültü sınırlandırıyor. Bu bölüm bu hesabın matematiğini verir.

Sezgi: Entropi = Belirsizlik

Entropi (H): bir rastgele olayın ortalama bilgi içeriği.

H(X)=ipilog2piH(X) = -\sum_i p_i \log_2 p_i
  • Tek olası sonuç (p=1p = 1): H=0H = 0 → bilgi yok (zaten biliyordun).
  • NN eşit olasılıklı sonuç: H=log2NH = \log_2 N → maksimum.
  • Genelde 0H(X)log2N0 \leq H(X) \leq \log_2 N.

Örnekler:

  • Adil madeni para: H=20.5log20.5=1H = -2 \cdot 0.5 \log_2 0.5 = 1 bit.
  • Adil zar: H=log26=2.58H = \log_2 6 = 2.58 bit.
  • Hile madeni (0.99/0.01): H=0.99log0.990.01log0.010.08H = -0.99 \log 0.99 - 0.01 \log 0.01 \approx 0.08 bit.
  • Türkçe metin (harf entropisi): ~4.5 bit/harf (ideal 28 harf eşit dağılırsa log228=4.81\log_2 28 = 4.81).

Bilgi sıkıştırma:

Entropi = mümkün olan en küçük temsil. Sıkıştırma teorik limiti:

  • Adil madeni: 1 bit/atış (zaten optimal).
  • Hileli madeni: 0.08 bit/atış → 12× sıkıştırma mümkün.
  • Türkçe: 4.5 bit/harf → 8-bit ASCII’den ~1.8× daha verimli depolama.

ZIP, JPEG, MP3, Brotli — hepsi entropi limitine yaklaşmaya çalışır.

SIDRA bağlamında:

Bir hücre 256 seviye saklar = log2256=8\log_2 256 = 8 bit teorik. Ama:

  • Programlama hatası 5% → bazı seviyeler ayırt edilemez → etkin seviye sayısı düşer.
  • Termal/shot gürültü → her okumada belirsizlik.
  • Etkin entropi: ~6 bit (4.4’te gördük).

Yani SIDRA Y1 hücresi pratikte 6 bit bilgi taşır, 8 değil. Bu kayıp temel — SNR ile doğrudan bağlı.

Formalizm: Entropi, Karşı Entropi, Kanal Kapasitesi

L1 · Başlangıç

Shannon entropisi:

H(X)=ipilog2pi(bit)H(X) = -\sum_i p_i \log_2 p_i \quad \text{(bit)}

veya doğal log ile (nat):

H(X)=ipilnpiH(X) = -\sum_i p_i \ln p_i

Birlikte entropi (joint entropy):

İki RV X,YX, Y:

H(X,Y)=i,jpijlogpijH(X, Y) = -\sum_{i,j} p_{ij} \log p_{ij}

Şartlı entropi:

H(XY)=H(X,Y)H(Y)H(X | Y) = H(X, Y) - H(Y)

YY bilindiğinde XX hakkında kalan belirsizlik.”

Karşılıklı bilgi (mutual information):

I(X;Y)=H(X)H(XY)=H(Y)H(YX)I(X; Y) = H(X) - H(X | Y) = H(Y) - H(Y | X)

XX ve YY‘nin paylaştığı bilgi.”

Önemli özellik: I(X;Y)0I(X; Y) \geq 0, eşitlik bağımsızlıkta. AI’da: girdi-çıktı arası bilgi akışı ölçer.

L2 · Tam

Kanal kapasitesi (Shannon-Hartley):

Sürekli kanal (analog), bant genişliği BB, SNR’ı:

C=Blog2(1+SNR)(bit/s)C = B \log_2 (1 + \text{SNR}) \quad \text{(bit/s)}
  • BB: bant genişliği (Hz).
  • SNR: sinyal-gürültü oranı.

Pratik:

  • Telefon hattı (3 kHz, SNR ~1000): C=3000log2100130C = 3000 \cdot \log_2 1001 \approx 30 kbit/s. (V.34 modem hızı bu civar.)
  • WiFi 802.11ac (160 MHz, SNR ~30 dB = 1000): C1.6C \approx 1.6 Gbit/s.
  • 5G (100 MHz, SNR ~30 dB): C1C \approx 1 Gbit/s.

SIDRA okuma kanalı:

Bir hücre okuması 10 ns (B = 100 MHz). SNR ~30 dB (~1000): C=108log21001109C = 10^8 \cdot \log_2 1001 \approx 10^9 bit/s = 1 Gbit/s per cell read.

Tek MVM 256 hücre paralel → 256 × 1 Gbit/s = 256 Gbit/s crossbar throughput. Pratik AI inference çok daha az bilgi gerektirir; bu fizik limit.

Cross-entropy:

İki dağılım PP (gerçek), QQ (model tahmin):

H(P,Q)=ipilogqiH(P, Q) = -\sum_i p_i \log q_i

AI sınıflandırma kayıp fonksiyonu = cross-entropy. Model gerçek dağılımı yakaladıkça düşer.

KL Divergence (Kullback-Leibler):

DKL(PQ)=ipilogpiqi=H(P,Q)H(P)D_{KL}(P \| Q) = \sum_i p_i \log \frac{p_i}{q_i} = H(P, Q) - H(P)

İki dağılım arası “uzaklık” (asimetrik). AI’da regularization (Bayesian VI, ELBO).

L3 · Derin

SIDRA hücresinin etkin bilgi kapasitesi:

Programlama 8 bit (N=256N = 256 seviye). Gürültü Gauss σ\sigma. Etkin ayırt edilebilir seviye sayısı:

NeffBA4σ+1N_{\text{eff}} \approx \frac{B - A}{4\sigma} + 1

(4σ kuralı: ~2 standart sapma her tarafa, %95 ayırt edilebilirlik.)

SIDRA Y1: BA=99B - A = 99 µS, σprogramlama=5\sigma_{\text{programlama}} = 5 µS → Neff=99/20+1=6N_{\text{eff}} = 99/20 + 1 = 6.

Yani sadece 6 ayırt edilebilir seviye = log26=2.58\log_2 6 = 2.58 bit etkin? Bu çok az gibi.

Düzelt: σ\sigma programlama için aşırı tahmin. ISPP ile σ1\sigma \approx 1 µS → Neff=25N_{\text{eff}} = 25log225=4.6\log_2 25 = 4.6 bit etkin. Daha gerçekçi.

Crossbar seviyesinde:

256 sütun paralel okuma → SNR N=16\sqrt{N} = 16 kat artar → bilgi kapasitesi:

Ccol=100MHzlog2(1+256SNRcell)1.5Gbit/sC_{\text{col}} = 100 \text{MHz} \cdot \log_2(1 + 256 \cdot \text{SNR}_{\text{cell}}) \approx 1.5 \text{Gbit/s}

Tek MVM 256 sütun = 256 × 1.5 Gbit/s = ~400 Gbit/s. Yine fizik limit; pratik AI çok daha az.

Information bottleneck (Tishby 1999):

Sinir ağı eğitimi = girdi XX ve çıktı YY arasında karşılıklı bilgi I(X;Y)I(X; Y) maksimize etmek + ara katman bilgisini sıkıştırmak. Modern derin öğrenme teorisi.

SIDRA için ilgi: Doğal “bilgi-sıkıştıran” katmanlar (gürültülü, sınırlı bit). Information bottleneck teorisi SIDRA donanımını natural olarak destekler — modern eğitim “kayıp olmayan” tam bilgi yerine “yeterli bilgi” hedefler.

Beyin bilgi kapasitesi:

  • 86B nöron × 1 Hz × log₂ 1 spike = ~10¹¹ bit/s “spike rate kodu” (kabaca).
  • Daha doğru: spike timing (ms hassasiyet), sparse coding → ~10¹³-10¹⁴ bit/s.
  • Ama beyin bunun %1’inden azını anlamlı bilgi olarak kullanır (sensory yedeklilik, redundancy).

SIDRA Y100 hedefi: ~10¹³ bit/s analog throughput → beyin sinaps bant genişliğine eşdeğer.

Deney: Entropi Hesabı

Türkçe karakter olasılıkları (yaklaşık):

HarfOlasılıkplog2p-p \log_2 p
a0.120.367
e0.100.332
i0.080.292
n0.070.269
r0.070.269
j0.0010.0099

Toplam (28 harf): H4.5H \approx 4.5 bit/harf.

Karşılaştırma:

  • ASCII: 8 bit/harf → %43 verimsiz.
  • Optimal Huffman kodlama: ~4.5 bit/harf → %0 verimsiz (entropi limiti).
  • Modern dil sıkıştırma (Brotli): ~3.5 bit/harf (kelime + dil modeli ekleyerek).

SIDRA hücresinin etkin entropisi:

Programlama 8-bit ama gürültüyle 6-bit etkin (4.4’ten):

Hcell6H_{\text{cell}} \approx 6 bit.

256 hücre crossbar sütunu: Hcol256×6=1536H_{\text{col}} \approx 256 \times 6 = 1536 bit. Ama bağımlılıklar var (bir gürültü kaynağı tüm hücrelere etki eder) → etkin biraz daha düşük.

Pratik: SIDRA Y1 419M hücre × 6 bit = ~2.5 Gbit toplam saklanan bilgi. Tipik bir küçük AI modeli (GPT-2: 124M param × 8 bit = 1 Gbit) Y1’e sığar.

Kısa Sınav

1/6Shannon entropisinin formülü nedir?

Laboratuvar Görevi

SIDRA Y1 ile MNIST sınıflandırmada bilgi akışı.

Senaryo:

  • MNIST giriş: 28×28 = 784 piksel × 8 bit = 6272 bit/imge.
  • Çıkış: 10 sınıf → log₂ 10 ≈ 3.32 bit/imge.
  • Gerekli bilgi sıkıştırması: 6272 / 3.32 ≈ 1900× sıkıştırma.

SIDRA Y1 modeli: 2-katmanlı MLP, 784 → 128 → 10. Her katman SIDRA crossbar.

Sorular:

(a) Tek inference için Y1’in işlediği toplam bilgi miktarı (giriş × ağırlık × çıkış)? (b) Cross-entropy başlangıç değeri (rastgele model)? (c) Eğitim sonu (FP32 model) cross-entropy? (d) SIDRA INT8 quantize sonrası cross-entropy artışı? (e) Bilgi-teorik olarak Y1’de saklanan ağırlık bilgisi (8 bit × 100K param) MNIST için fazla mı?

Çözümler

(a) Giriş 6272 bit. Ağırlıklar 100K × 8 = 800 kbit. Çıkış 3.32 bit. Toplam bilgi akışı: giriş + ağırlık + ara aktivasyon ≈ 800 kbit/inference (ağırlık baskın).

(b) Rastgele 10 sınıf model: H=log10=3.32H = \log 10 = 3.32 bit. Cross-entropy başlangıç ≈ 2.30 nat = 3.32 bit (düz).

(c) İyi eğitilmiş MNIST: cross-entropy ≈ 0.05-0.10 nat. Çok düşük. Model çok güvenli (genelde).

(d) INT8 quantize cross-entropy ≈ 0.06-0.12 nat. Çok az artış. Doğruluk kaybı %0.2.

(e) MNIST optimal model boyutu (information-theoretic): ~50K-100K parametre yeter (entropi-bazlı kapasite analizi). Y1 100K parametre = optimal. Daha fazla overfitting riski olurdu. SIDRA Y1 boyutu MNIST için “tam doğru”.

Not: Modern büyük modeller (BERT, GPT) çok daha fazla parametre kullanır çünkü daha kompleks dağılımlara ihtiyaç var. Y1 büyük dil modeli için yetersiz; Y10+ gerek.

Özet Kart

  • Entropi: H=plogpH = -\sum p \log p. Belirsizliğin ölçüsü.
  • Maksimum: log2N\log_2 N (eşit dağılım), minimum: 0 (kesin sonuç).
  • Joint, koşullu, karşılıklı bilgi: entropi varyantları.
  • Kanal kapasitesi: C=Blog2(1+SNR)C = B \log_2(1 + \text{SNR}) (Shannon-Hartley).
  • Cross-entropy: AI sınıflandırma kayıp fonksiyonu.
  • KL Divergence: dağılım uzaklığı, regularization.
  • SIDRA hücresi: ~6 bit etkin, ~1 Gbit/s okuma kapasitesi.
  • Information bottleneck: AI ağı bilgi akışı maksimize + sıkıştırır.

Vizyon: Bilgi-Aware AI Donanımı

Modern AI donanımı genelde “ne kadar FLOP” üzerinden ölçülür. Bilgi-teorik metrikler daha doğru: “saniyede ne kadar bit anlamlı?”

  • Y1 (bugün): 6 bit/hücre etkin. INT8 model için yeter.
  • Y3 (2027): 8 bit/hücre etkin (ISPP iyileşme). INT8 modellerin tam doğru reproduksiyonu.
  • Y10 (2029): Çoklu-hücre 12 bit. FP16 eşdeğer. Daha karmaşık modeller (BERT-large, GPT-2).
  • Y100 (2031+): 16 bit + dinamik aralık. GPT-3 sınıfı modeller edge’de.
  • Y1000 (uzun vade): 24+ bit + analog FP. Beyin-tarzı kapasiteye yaklaşma.

Türkiye için anlam: Bilgi-aware donanım tasarımı yeni bir paradigma. SIDRA + Information Bottleneck Theory + akademik araştırma → Türkiye’nin AI mimarisi alanında özgün katkısı olabilir.

Beklenmedik gelecek: Bilgi-conserving AI. Termodinamik gibi: kapalı sistemde bilgi korunur. Reversible computing yaklaşır → enerji yok. SIDRA Y1000 hedefi: Landauer altı bilgi işleme. Bilim-kurgu, ama yön gösterici.

Daha İleri

  • Bir sonraki bölüm: 4.8 — Lineer Cebir Laboratuvarı
  • Önceki: 4.6 — Nicemleme ve Kuantizasyon Hatası
  • Klasik referans: Shannon, A Mathematical Theory of Communication, Bell System Tech. J. 1948.
  • Modern ders kitabı: Cover & Thomas, Elements of Information Theory, 2. baskı.
  • Kompresyon: MacKay, Information Theory, Inference, and Learning Algorithms.
  • Information bottleneck: Tishby, Pereira, Bialek, The information bottleneck method, arXiv 2000.
  • Deep learning + IB: Tishby & Zaslavsky, Deep learning and the information bottleneck principle, ITW 2015.