📐 Modül 4 · Matematik Cephanesi · Bölüm 4.7 · 11 dk okuma

Bilgi Kuramı: Entropi ve Kanal

Bir bit ne kadar bilgi taşır — ve bir SIDRA hücresi ne kadar?

Önkoşul

Bu bölümde öğreneceklerin

Shannon entropisini ($H = -\sum p \log p$) tanımla ve sezgisel anlamını söyle
Kanal kapasitesini ($C = B \log_2(1 + \text{SNR})$) ve Shannon-Hartley teoremini açıkla
Bir SIDRA hücresinin gerçek bilgi kapasitesini hesapla
AI'da bilgi kuramının (cross-entropy, KL divergence) rollerini özetle
SIDRA crossbar'ının teorik ve pratik bilgi limitlerini karşılaştır

Açılış: Bilgi Nedir?

Bir yazı tura atışını tahmin etmek istiyorsun. Sana cevap verilir → 1 bit bilgi aldın. Olasılık 50/50 → tam belirsizlik → “1 bit” ölçüsü.

Bir altı yüzlü zar atışı: cevap → log₂(6) ≈ 2.58 bit bilgi.

Eğer bir madeni para hile (yazı %99 olasılık) ise → cevap çoğunlukla beklenen → çok az bilgi (~0.08 bit). Bilgi = belirsizliğin azalması.

1948’de Claude Shannon, A Mathematical Theory of Communication makalesinde bilgiyi ölçtü. Aynı zamanda kanalın kapasitesini (saniyede ne kadar bilgi taşıyabileceğini) tanımladı. Bu makale modern iletişim, sıkıştırma, ve kriptografi’nin temelini attı.

SIDRA için ilginç soru: bir memristör hücresi pratikte ne kadar bilgi taşıyor? Teorik olarak 8 bit, ama gürültü sınırlandırıyor. Bu bölüm bu hesabın matematiğini verir.

Sezgi: Entropi = Belirsizlik

Entropi (H): bir rastgele olayın ortalama bilgi içeriği.

H(X) = -\sum_i p_i \log_2 p_i

Tek olası sonuç ( $p = 1$ ): $H = 0$ → bilgi yok (zaten biliyordun).
$N$ eşit olasılıklı sonuç: $H = \log_2 N$ → maksimum.
Genelde $0 \leq H(X) \leq \log_2 N$ .

Örnekler:

Adil madeni para: $H = -2 \cdot 0.5 \log_2 0.5 = 1$ bit.
Adil zar: $H = \log_2 6 = 2.58$ bit.
Hile madeni (0.99/0.01): $H = -0.99 \log 0.99 - 0.01 \log 0.01 \approx 0.08$ bit.
Türkçe metin (harf entropisi): ~4.5 bit/harf (ideal 28 harf eşit dağılırsa $\log_2 28 = 4.81$ ).

Bilgi sıkıştırma:

Entropi = mümkün olan en küçük temsil. Sıkıştırma teorik limiti:

Adil madeni: 1 bit/atış (zaten optimal).
Hileli madeni: 0.08 bit/atış → 12× sıkıştırma mümkün.
Türkçe: 4.5 bit/harf → 8-bit ASCII’den ~1.8× daha verimli depolama.

ZIP, JPEG, MP3, Brotli — hepsi entropi limitine yaklaşmaya çalışır.

SIDRA bağlamında:

Bir hücre 256 seviye saklar = $\log_2 256 = 8$ bit teorik. Ama:

Programlama hatası 5% → bazı seviyeler ayırt edilemez → etkin seviye sayısı düşer.
Termal/shot gürültü → her okumada belirsizlik.
Etkin entropi: ~6 bit (4.4’te gördük).

Yani SIDRA Y1 hücresi pratikte 6 bit bilgi taşır, 8 değil. Bu kayıp temel — SNR ile doğrudan bağlı.

Formalizm: Entropi, Karşı Entropi, Kanal Kapasitesi

L1 · Başlangıç

Shannon entropisi:

H(X) = -\sum_i p_i \log_2 p_i \quad \text{(bit)}

veya doğal log ile (nat):

H(X) = -\sum_i p_i \ln p_i

Birlikte entropi (joint entropy):

İki RV $X, Y$ :

H(X, Y) = -\sum_{i,j} p_{ij} \log p_{ij}

Şartlı entropi:

H(X | Y) = H(X, Y) - H(Y)

” $Y$ bilindiğinde $X$ hakkında kalan belirsizlik.”

Karşılıklı bilgi (mutual information):

I(X; Y) = H(X) - H(X | Y) = H(Y) - H(Y | X)

” $X$ ve $Y$ ‘nin paylaştığı bilgi.”

Önemli özellik: $I(X; Y) \geq 0$ , eşitlik bağımsızlıkta. AI’da: girdi-çıktı arası bilgi akışı ölçer.

L2 · Tam

Kanal kapasitesi (Shannon-Hartley):

Sürekli kanal (analog), bant genişliği $B$ , SNR’ı:

C = B \log_2 (1 + \text{SNR}) \quad \text{(bit/s)}

$B$ : bant genişliği (Hz).
SNR: sinyal-gürültü oranı.

Pratik:

Telefon hattı (3 kHz, SNR ~1000): $C = 3000 \cdot \log_2 1001 \approx 30$ kbit/s. (V.34 modem hızı bu civar.)
WiFi 802.11ac (160 MHz, SNR ~30 dB = 1000): $C \approx 1.6$ Gbit/s.
5G (100 MHz, SNR ~30 dB): $C \approx 1$ Gbit/s.

SIDRA okuma kanalı:

Bir hücre okuması 10 ns (B = 100 MHz). SNR ~30 dB (~1000): $C = 10^8 \cdot \log_2 1001 \approx 10^9$ bit/s = 1 Gbit/s per cell read.

Tek MVM 256 hücre paralel → 256 × 1 Gbit/s = 256 Gbit/s crossbar throughput. Pratik AI inference çok daha az bilgi gerektirir; bu fizik limit.

Cross-entropy:

İki dağılım $P$ (gerçek), $Q$ (model tahmin):

H(P, Q) = -\sum_i p_i \log q_i

AI sınıflandırma kayıp fonksiyonu = cross-entropy. Model gerçek dağılımı yakaladıkça düşer.

KL Divergence (Kullback-Leibler):

D_{KL}(P \| Q) = \sum_i p_i \log \frac{p_i}{q_i} = H(P, Q) - H(P)

İki dağılım arası “uzaklık” (asimetrik). AI’da regularization (Bayesian VI, ELBO).

L3 · Derin

SIDRA hücresinin etkin bilgi kapasitesi:

Programlama 8 bit ( $N = 256$ seviye). Gürültü Gauss $\sigma$ . Etkin ayırt edilebilir seviye sayısı:

N_{\text{eff}} \approx \frac{B - A}{4\sigma} + 1

(4σ kuralı: ~2 standart sapma her tarafa, %95 ayırt edilebilirlik.)

SIDRA Y1: $B - A = 99$ µS, $\sigma_{\text{programlama}} = 5$ µS → $N_{\text{eff}} = 99/20 + 1 = 6$ .

Yani sadece 6 ayırt edilebilir seviye = $\log_2 6 = 2.58$ bit etkin? Bu çok az gibi.

Düzelt: $\sigma$ programlama için aşırı tahmin. ISPP ile $\sigma \approx 1$ µS → $N_{\text{eff}} = 25$ → $\log_2 25 = 4.6$ bit etkin. Daha gerçekçi.

Crossbar seviyesinde:

256 sütun paralel okuma → SNR $\sqrt{N} = 16$ kat artar → bilgi kapasitesi:

C_{\text{col}} = 100 \text{MHz} \cdot \log_2(1 + 256 \cdot \text{SNR}_{\text{cell}}) \approx 1.5 \text{Gbit/s}

Tek MVM 256 sütun = 256 × 1.5 Gbit/s = ~400 Gbit/s. Yine fizik limit; pratik AI çok daha az.

Information bottleneck (Tishby 1999):

Sinir ağı eğitimi = girdi $X$ ve çıktı $Y$ arasında karşılıklı bilgi $I(X; Y)$ maksimize etmek + ara katman bilgisini sıkıştırmak. Modern derin öğrenme teorisi.

SIDRA için ilgi: Doğal “bilgi-sıkıştıran” katmanlar (gürültülü, sınırlı bit). Information bottleneck teorisi SIDRA donanımını natural olarak destekler — modern eğitim “kayıp olmayan” tam bilgi yerine “yeterli bilgi” hedefler.

Beyin bilgi kapasitesi:

86B nöron × 1 Hz × log₂ 1 spike = ~10¹¹ bit/s “spike rate kodu” (kabaca).
Daha doğru: spike timing (ms hassasiyet), sparse coding → ~10¹³-10¹⁴ bit/s.
Ama beyin bunun %1’inden azını anlamlı bilgi olarak kullanır (sensory yedeklilik, redundancy).

SIDRA Y100 hedefi: ~10¹³ bit/s analog throughput → beyin sinaps bant genişliğine eşdeğer.

Deney: Entropi Hesabı

Türkçe karakter olasılıkları (yaklaşık):

Harf	Olasılık	$-p \log_2 p$
a	0.12	0.367
e	0.10	0.332
i	0.08	0.292
n	0.07	0.269
r	0.07	0.269
…	…	…
j	0.001	0.0099

Toplam (28 harf): $H \approx 4.5$ bit/harf.

Karşılaştırma:

ASCII: 8 bit/harf → %43 verimsiz.
Optimal Huffman kodlama: ~4.5 bit/harf → %0 verimsiz (entropi limiti).
Modern dil sıkıştırma (Brotli): ~3.5 bit/harf (kelime + dil modeli ekleyerek).

SIDRA hücresinin etkin entropisi:

Programlama 8-bit ama gürültüyle 6-bit etkin (4.4’ten):

$H_{\text{cell}} \approx 6$ bit.

256 hücre crossbar sütunu: $H_{\text{col}} \approx 256 \times 6 = 1536$ bit. Ama bağımlılıklar var (bir gürültü kaynağı tüm hücrelere etki eder) → etkin biraz daha düşük.

Pratik: SIDRA Y1 419M hücre × 6 bit = ~2.5 Gbit toplam saklanan bilgi. Tipik bir küçük AI modeli (GPT-2: 124M param × 8 bit = 1 Gbit) Y1’e sığar.

Kısa Sınav

1/6Shannon entropisinin formülü nedir?

Laboratuvar Görevi

SIDRA Y1 ile MNIST sınıflandırmada bilgi akışı.

Senaryo:

MNIST giriş: 28×28 = 784 piksel × 8 bit = 6272 bit/imge.
Çıkış: 10 sınıf → log₂ 10 ≈ 3.32 bit/imge.
Gerekli bilgi sıkıştırması: 6272 / 3.32 ≈ 1900× sıkıştırma.

SIDRA Y1 modeli: 2-katmanlı MLP, 784 → 128 → 10. Her katman SIDRA crossbar.

Sorular:

(a) Tek inference için Y1’in işlediği toplam bilgi miktarı (giriş × ağırlık × çıkış)? (b) Cross-entropy başlangıç değeri (rastgele model)? (c) Eğitim sonu (FP32 model) cross-entropy? (d) SIDRA INT8 quantize sonrası cross-entropy artışı? (e) Bilgi-teorik olarak Y1’de saklanan ağırlık bilgisi (8 bit × 100K param) MNIST için fazla mı?

Çözümler

(a) Giriş 6272 bit. Ağırlıklar 100K × 8 = 800 kbit. Çıkış 3.32 bit. Toplam bilgi akışı: giriş + ağırlık + ara aktivasyon ≈ 800 kbit/inference (ağırlık baskın).

(b) Rastgele 10 sınıf model: $H = \log 10 = 3.32$ bit. Cross-entropy başlangıç ≈ 2.30 nat = 3.32 bit (düz).

(d) INT8 quantize cross-entropy ≈ 0.06-0.12 nat. Çok az artış. Doğruluk kaybı %0.2.

(e) MNIST optimal model boyutu (information-theoretic): ~50K-100K parametre yeter (entropi-bazlı kapasite analizi). Y1 100K parametre = optimal. Daha fazla overfitting riski olurdu. SIDRA Y1 boyutu MNIST için “tam doğru”.

Not: Modern büyük modeller (BERT, GPT) çok daha fazla parametre kullanır çünkü daha kompleks dağılımlara ihtiyaç var. Y1 büyük dil modeli için yetersiz; Y10+ gerek.

Özet Kart

Entropi: $H = -\sum p \log p$ . Belirsizliğin ölçüsü.
Maksimum: $\log_2 N$ (eşit dağılım), minimum: 0 (kesin sonuç).
Joint, koşullu, karşılıklı bilgi: entropi varyantları.
Kanal kapasitesi: $C = B \log_2(1 + \text{SNR})$ (Shannon-Hartley).
Cross-entropy: AI sınıflandırma kayıp fonksiyonu.
KL Divergence: dağılım uzaklığı, regularization.
SIDRA hücresi: ~6 bit etkin, ~1 Gbit/s okuma kapasitesi.
Information bottleneck: AI ağı bilgi akışı maksimize + sıkıştırır.

Vizyon: Bilgi-Aware AI Donanımı

Modern AI donanımı genelde “ne kadar FLOP” üzerinden ölçülür. Bilgi-teorik metrikler daha doğru: “saniyede ne kadar bit anlamlı?”

Y1 (bugün): 6 bit/hücre etkin. INT8 model için yeter.
Y3 (2027): 8 bit/hücre etkin (ISPP iyileşme). INT8 modellerin tam doğru reproduksiyonu.
Y10 (2029): Çoklu-hücre 12 bit. FP16 eşdeğer. Daha karmaşık modeller (BERT-large, GPT-2).
Y100 (2031+): 16 bit + dinamik aralık. GPT-3 sınıfı modeller edge’de.
Y1000 (uzun vade): 24+ bit + analog FP. Beyin-tarzı kapasiteye yaklaşma.

Türkiye için anlam: Bilgi-aware donanım tasarımı yeni bir paradigma. SIDRA + Information Bottleneck Theory + akademik araştırma → Türkiye’nin AI mimarisi alanında özgün katkısı olabilir.

Beklenmedik gelecek: Bilgi-conserving AI. Termodinamik gibi: kapalı sistemde bilgi korunur. Reversible computing yaklaşır → enerji yok. SIDRA Y1000 hedefi: Landauer altı bilgi işleme. Bilim-kurgu, ama yön gösterici.

Daha İleri

Bir sonraki bölüm: 4.8 — Lineer Cebir Laboratuvarı
Önceki: 4.6 — Nicemleme ve Kuantizasyon Hatası
Klasik referans: Shannon, A Mathematical Theory of Communication, Bell System Tech. J. 1948.
Modern ders kitabı: Cover & Thomas, Elements of Information Theory, 2. baskı.
Kompresyon: MacKay, Information Theory, Inference, and Learning Algorithms.
Information bottleneck: Tishby, Pereira, Bialek, The information bottleneck method, arXiv 2000.
Deep learning + IB: Tishby & Zaslavsky, Deep learning and the information bottleneck principle, ITW 2015.

Önkoşul

Bu bölümde öğreneceklerin

🪝 Açılış: Bilgi Nedir?

🧭 Sezgi: Entropi = Belirsizlik

📐 Formalizm: Entropi, Karşı Entropi, Kanal Kapasitesi

🧪 Deney: Entropi Hesabı

📝 Kısa Sınav

🛠️ Laboratuvar Görevi

🗂️ Özet Kart

🔮 Vizyon: Bilgi-Aware AI Donanımı

📚 Daha İleri