Bilgi Kuramı: Entropi ve Kanal
Bir bit ne kadar bilgi taşır — ve bir SIDRA hücresi ne kadar?
Bu bölümde öğreneceklerin
- Shannon entropisini ($H = -\sum p \log p$) tanımla ve sezgisel anlamını söyle
- Kanal kapasitesini ($C = B \log_2(1 + \text{SNR})$) ve Shannon-Hartley teoremini açıkla
- Bir SIDRA hücresinin gerçek bilgi kapasitesini hesapla
- AI'da bilgi kuramının (cross-entropy, KL divergence) rollerini özetle
- SIDRA crossbar'ının teorik ve pratik bilgi limitlerini karşılaştır
Açılış: Bilgi Nedir?
Bir yazı tura atışını tahmin etmek istiyorsun. Sana cevap verilir → 1 bit bilgi aldın. Olasılık 50/50 → tam belirsizlik → “1 bit” ölçüsü.
Bir altı yüzlü zar atışı: cevap → log₂(6) ≈ 2.58 bit bilgi.
Eğer bir madeni para hile (yazı %99 olasılık) ise → cevap çoğunlukla beklenen → çok az bilgi (~0.08 bit). Bilgi = belirsizliğin azalması.
1948’de Claude Shannon, A Mathematical Theory of Communication makalesinde bilgiyi ölçtü. Aynı zamanda kanalın kapasitesini (saniyede ne kadar bilgi taşıyabileceğini) tanımladı. Bu makale modern iletişim, sıkıştırma, ve kriptografi’nin temelini attı.
SIDRA için ilginç soru: bir memristör hücresi pratikte ne kadar bilgi taşıyor? Teorik olarak 8 bit, ama gürültü sınırlandırıyor. Bu bölüm bu hesabın matematiğini verir.
Sezgi: Entropi = Belirsizlik
Entropi (H): bir rastgele olayın ortalama bilgi içeriği.
- Tek olası sonuç (): → bilgi yok (zaten biliyordun).
- eşit olasılıklı sonuç: → maksimum.
- Genelde .
Örnekler:
- Adil madeni para: bit.
- Adil zar: bit.
- Hile madeni (0.99/0.01): bit.
- Türkçe metin (harf entropisi): ~4.5 bit/harf (ideal 28 harf eşit dağılırsa ).
Bilgi sıkıştırma:
Entropi = mümkün olan en küçük temsil. Sıkıştırma teorik limiti:
- Adil madeni: 1 bit/atış (zaten optimal).
- Hileli madeni: 0.08 bit/atış → 12× sıkıştırma mümkün.
- Türkçe: 4.5 bit/harf → 8-bit ASCII’den ~1.8× daha verimli depolama.
ZIP, JPEG, MP3, Brotli — hepsi entropi limitine yaklaşmaya çalışır.
SIDRA bağlamında:
Bir hücre 256 seviye saklar = bit teorik. Ama:
- Programlama hatası 5% → bazı seviyeler ayırt edilemez → etkin seviye sayısı düşer.
- Termal/shot gürültü → her okumada belirsizlik.
- Etkin entropi: ~6 bit (4.4’te gördük).
Yani SIDRA Y1 hücresi pratikte 6 bit bilgi taşır, 8 değil. Bu kayıp temel — SNR ile doğrudan bağlı.
Formalizm: Entropi, Karşı Entropi, Kanal Kapasitesi
Shannon entropisi:
veya doğal log ile (nat):
Birlikte entropi (joint entropy):
İki RV :
Şartlı entropi:
” bilindiğinde hakkında kalan belirsizlik.”
Karşılıklı bilgi (mutual information):
” ve ‘nin paylaştığı bilgi.”
Önemli özellik: , eşitlik bağımsızlıkta. AI’da: girdi-çıktı arası bilgi akışı ölçer.
Kanal kapasitesi (Shannon-Hartley):
Sürekli kanal (analog), bant genişliği , SNR’ı:
- : bant genişliği (Hz).
- SNR: sinyal-gürültü oranı.
Pratik:
- Telefon hattı (3 kHz, SNR ~1000): kbit/s. (V.34 modem hızı bu civar.)
- WiFi 802.11ac (160 MHz, SNR ~30 dB = 1000): Gbit/s.
- 5G (100 MHz, SNR ~30 dB): Gbit/s.
SIDRA okuma kanalı:
Bir hücre okuması 10 ns (B = 100 MHz). SNR ~30 dB (~1000): bit/s = 1 Gbit/s per cell read.
Tek MVM 256 hücre paralel → 256 × 1 Gbit/s = 256 Gbit/s crossbar throughput. Pratik AI inference çok daha az bilgi gerektirir; bu fizik limit.
Cross-entropy:
İki dağılım (gerçek), (model tahmin):
AI sınıflandırma kayıp fonksiyonu = cross-entropy. Model gerçek dağılımı yakaladıkça düşer.
KL Divergence (Kullback-Leibler):
İki dağılım arası “uzaklık” (asimetrik). AI’da regularization (Bayesian VI, ELBO).
SIDRA hücresinin etkin bilgi kapasitesi:
Programlama 8 bit ( seviye). Gürültü Gauss . Etkin ayırt edilebilir seviye sayısı:
(4σ kuralı: ~2 standart sapma her tarafa, %95 ayırt edilebilirlik.)
SIDRA Y1: µS, µS → .
Yani sadece 6 ayırt edilebilir seviye = bit etkin? Bu çok az gibi.
Düzelt: programlama için aşırı tahmin. ISPP ile µS → → bit etkin. Daha gerçekçi.
Crossbar seviyesinde:
256 sütun paralel okuma → SNR kat artar → bilgi kapasitesi:
Tek MVM 256 sütun = 256 × 1.5 Gbit/s = ~400 Gbit/s. Yine fizik limit; pratik AI çok daha az.
Information bottleneck (Tishby 1999):
Sinir ağı eğitimi = girdi ve çıktı arasında karşılıklı bilgi maksimize etmek + ara katman bilgisini sıkıştırmak. Modern derin öğrenme teorisi.
SIDRA için ilgi: Doğal “bilgi-sıkıştıran” katmanlar (gürültülü, sınırlı bit). Information bottleneck teorisi SIDRA donanımını natural olarak destekler — modern eğitim “kayıp olmayan” tam bilgi yerine “yeterli bilgi” hedefler.
Beyin bilgi kapasitesi:
- 86B nöron × 1 Hz × log₂ 1 spike = ~10¹¹ bit/s “spike rate kodu” (kabaca).
- Daha doğru: spike timing (ms hassasiyet), sparse coding → ~10¹³-10¹⁴ bit/s.
- Ama beyin bunun %1’inden azını anlamlı bilgi olarak kullanır (sensory yedeklilik, redundancy).
SIDRA Y100 hedefi: ~10¹³ bit/s analog throughput → beyin sinaps bant genişliğine eşdeğer.
Deney: Entropi Hesabı
Türkçe karakter olasılıkları (yaklaşık):
| Harf | Olasılık | |
|---|---|---|
| a | 0.12 | 0.367 |
| e | 0.10 | 0.332 |
| i | 0.08 | 0.292 |
| n | 0.07 | 0.269 |
| r | 0.07 | 0.269 |
| … | … | … |
| j | 0.001 | 0.0099 |
Toplam (28 harf): bit/harf.
Karşılaştırma:
- ASCII: 8 bit/harf → %43 verimsiz.
- Optimal Huffman kodlama: ~4.5 bit/harf → %0 verimsiz (entropi limiti).
- Modern dil sıkıştırma (Brotli): ~3.5 bit/harf (kelime + dil modeli ekleyerek).
SIDRA hücresinin etkin entropisi:
Programlama 8-bit ama gürültüyle 6-bit etkin (4.4’ten):
bit.
256 hücre crossbar sütunu: bit. Ama bağımlılıklar var (bir gürültü kaynağı tüm hücrelere etki eder) → etkin biraz daha düşük.
Pratik: SIDRA Y1 419M hücre × 6 bit = ~2.5 Gbit toplam saklanan bilgi. Tipik bir küçük AI modeli (GPT-2: 124M param × 8 bit = 1 Gbit) Y1’e sığar.
Kısa Sınav
Laboratuvar Görevi
SIDRA Y1 ile MNIST sınıflandırmada bilgi akışı.
Senaryo:
- MNIST giriş: 28×28 = 784 piksel × 8 bit = 6272 bit/imge.
- Çıkış: 10 sınıf → log₂ 10 ≈ 3.32 bit/imge.
- Gerekli bilgi sıkıştırması: 6272 / 3.32 ≈ 1900× sıkıştırma.
SIDRA Y1 modeli: 2-katmanlı MLP, 784 → 128 → 10. Her katman SIDRA crossbar.
Sorular:
(a) Tek inference için Y1’in işlediği toplam bilgi miktarı (giriş × ağırlık × çıkış)? (b) Cross-entropy başlangıç değeri (rastgele model)? (c) Eğitim sonu (FP32 model) cross-entropy? (d) SIDRA INT8 quantize sonrası cross-entropy artışı? (e) Bilgi-teorik olarak Y1’de saklanan ağırlık bilgisi (8 bit × 100K param) MNIST için fazla mı?
Çözümler
(a) Giriş 6272 bit. Ağırlıklar 100K × 8 = 800 kbit. Çıkış 3.32 bit. Toplam bilgi akışı: giriş + ağırlık + ara aktivasyon ≈ 800 kbit/inference (ağırlık baskın).
(b) Rastgele 10 sınıf model: bit. Cross-entropy başlangıç ≈ 2.30 nat = 3.32 bit (düz).
(c) İyi eğitilmiş MNIST: cross-entropy ≈ 0.05-0.10 nat. Çok düşük. Model çok güvenli (genelde).
(d) INT8 quantize cross-entropy ≈ 0.06-0.12 nat. Çok az artış. Doğruluk kaybı %0.2.
(e) MNIST optimal model boyutu (information-theoretic): ~50K-100K parametre yeter (entropi-bazlı kapasite analizi). Y1 100K parametre = optimal. Daha fazla overfitting riski olurdu. SIDRA Y1 boyutu MNIST için “tam doğru”.
Not: Modern büyük modeller (BERT, GPT) çok daha fazla parametre kullanır çünkü daha kompleks dağılımlara ihtiyaç var. Y1 büyük dil modeli için yetersiz; Y10+ gerek.
Özet Kart
- Entropi: . Belirsizliğin ölçüsü.
- Maksimum: (eşit dağılım), minimum: 0 (kesin sonuç).
- Joint, koşullu, karşılıklı bilgi: entropi varyantları.
- Kanal kapasitesi: (Shannon-Hartley).
- Cross-entropy: AI sınıflandırma kayıp fonksiyonu.
- KL Divergence: dağılım uzaklığı, regularization.
- SIDRA hücresi: ~6 bit etkin, ~1 Gbit/s okuma kapasitesi.
- Information bottleneck: AI ağı bilgi akışı maksimize + sıkıştırır.
Vizyon: Bilgi-Aware AI Donanımı
Modern AI donanımı genelde “ne kadar FLOP” üzerinden ölçülür. Bilgi-teorik metrikler daha doğru: “saniyede ne kadar bit anlamlı?”
- Y1 (bugün): 6 bit/hücre etkin. INT8 model için yeter.
- Y3 (2027): 8 bit/hücre etkin (ISPP iyileşme). INT8 modellerin tam doğru reproduksiyonu.
- Y10 (2029): Çoklu-hücre 12 bit. FP16 eşdeğer. Daha karmaşık modeller (BERT-large, GPT-2).
- Y100 (2031+): 16 bit + dinamik aralık. GPT-3 sınıfı modeller edge’de.
- Y1000 (uzun vade): 24+ bit + analog FP. Beyin-tarzı kapasiteye yaklaşma.
Türkiye için anlam: Bilgi-aware donanım tasarımı yeni bir paradigma. SIDRA + Information Bottleneck Theory + akademik araştırma → Türkiye’nin AI mimarisi alanında özgün katkısı olabilir.
Beklenmedik gelecek: Bilgi-conserving AI. Termodinamik gibi: kapalı sistemde bilgi korunur. Reversible computing yaklaşır → enerji yok. SIDRA Y1000 hedefi: Landauer altı bilgi işleme. Bilim-kurgu, ama yön gösterici.
Daha İleri
- Bir sonraki bölüm: 4.8 — Lineer Cebir Laboratuvarı
- Önceki: 4.6 — Nicemleme ve Kuantizasyon Hatası
- Klasik referans: Shannon, A Mathematical Theory of Communication, Bell System Tech. J. 1948.
- Modern ders kitabı: Cover & Thomas, Elements of Information Theory, 2. baskı.
- Kompresyon: MacKay, Information Theory, Inference, and Learning Algorithms.
- Information bottleneck: Tishby, Pereira, Bialek, The information bottleneck method, arXiv 2000.
- Deep learning + IB: Tishby & Zaslavsky, Deep learning and the information bottleneck principle, ITW 2015.