💻 Modül 6 · Yazılım Yığını · Bölüm 6.9 · 9 dk okuma

Test, Kalibrasyon, Doğrulama

Bir SIDRA çipi sahaya gitmeden önce — kalite kontrolün katmanları.

Bu bölümde öğreneceklerin

  • Üretim test akışını (wafer test → package test → system test) say
  • Boot-time kalibrasyon adımlarını detayla
  • BIST (Built-In Self-Test) ve donanım sürekli doğrulama
  • Failure mode analizi ve RMA (Return Merchandise Authorization) süreci
  • AI doğruluk verification (model bazlı QA) standartları söyle

Açılış: Çip Üretildi, Şimdi Ne?

419M memristör + milyarlarca transistör. Hepsi doğru çalışıyor mu? Test, test, test.

Üretim sonrası 3 aşama:

  1. Wafer test: her die test, %75 yield.
  2. Package test: paketlenmiş çip, %95 başarı.
  3. System test: anakart üstünde, gerçek workload.

Sonra sahaya gider. Sahada sürekli boot-time kalibrasyon + BIST.

Sezgi: Çoklu Test Katmanları

Wafer (38 die)
    ↓ probe test (her die)
İyi die (~28)
    ↓ paketleme
Çip (~95% kabul)
    ↓ system test
Sevkiyata hazır (~%70 toplam yield)

Saha (boot-time kalibre + BIST)

Her aşama defekt yakalama amaçlı. Geç yakalanan defekt pahalı.

Formalizm: Test Aşamaları

L1 · Başlangıç

Wafer test (probe card):

Wafer üzerinde her die’a probe iğnesi temas. Test:

  • DC test: voltaj/akım sınırlar.
  • Memori test: SRAM bit-by-bit.
  • Crossbar test: 16 referans hücre programla + oku.
  • Interconnect test: BAR mapping.

Süre: 30 sn/die. 38 die wafer = 20 dakika.

Failed die’lar işaretlenir, paketleme’ye gönderilmez.

Package test:

Paketlenmiş çip:

  • PCIe enumeration (BIOS görmesi).
  • Tam memori test (DDR/SRAM).
  • Tam crossbar test (her hücre programla + oku).
  • Termal stres (85°C, 1 saat).

Failed çip RMA → tedarikçiye iade.

System test:

Anakarta takılı çip:

  • Tam SDK çalışır.
  • MNIST + ResNet inference doğruluk.
  • 24 saat stres test.

Geçen çip “kabul edilir”, müşteriye gider.

L2 · Tam

Boot-time kalibrasyon:

Çip her açıldığında:

1. Voltaj rails stabilize.
2. Termal sensörler aktif.
3. Bandgap reference kalibre.
4. Her crossbar 16 referans hücre oku → DAC scale ayarla.
5. Failure map yükle (NVRAM'dan).
6. SRAM init.
7. Driver READY signal.

Süre: ~100 ms (Modül 6.3’te detay).

BIST (Built-In Self-Test):

Çip içinde test devre. Boot’ta otomatik çalışır:

void bist_run(void) {
    // SRAM walking-bit test
    for (int addr = 0; addr < SRAM_SIZE; addr++) {
        for (int bit = 0; bit < 32; bit++) {
            sram[addr] = (1 << bit);
            assert(sram[addr] == (1 << bit));
        }
    }
    
    // Crossbar reference test
    for (int xb = 0; xb < N_CROSSBARS; xb++) {
        program_reference(xb);
        if (!verify_reference(xb)) {
            mark_crossbar_bad(xb);
        }
    }
    
    // Compute engine test
    for (int op = 0; op < N_OPS; op++) {
        result = run_op(op, test_input);
        assert(result == expected[op]);
    }
}

Hatalı bileşen → failure map güncelle, ECC redundant’a yönlendir.

Periyodik runtime test:

Inference sırasında %1 sıklıkta referans MVM çalış. Sonuç sapması varsa kalibre.

if (inference_count % 100 == 0) {
    actual = run_reference_mvm();
    if (abs(actual - expected) > THRESHOLD) {
        recalibrate_all();
    }
}

Drift, sıcaklık değişimi otomatik düzeltme.

L3 · Derin

Failure mode analizi:

Çoğu failure üretim sırasında yakalanır. Kalan failure’lar saha:

FailureSıklıkAksiyon
Cell drift%1/yılECC + auto-refresh
Single CU dead%0.1/yılFailure map + reroute
Cluster fault%0.01/yılPerformance düşüş, bildirim
Total chip fail%0.001/yılRMA, replace

MTBF (Mean Time Between Failures) hedef: 100,000 saat = 11 yıl.

RMA süreci:

Müşteri arıza bildirir → ticket → SIDRA satış → yedek çip gönder → arızalı geri al → analiz → tedarik zinciri iyileştirme.

Saha verisi → üretim iyileşme. Kapalı döngü.

AI doğruluk verification:

Kompil edilmiş model gerçek SIDRA’da deploy edildikten sonra:

test_acc = chip.benchmark(test_data)
sim_acc = simulator.benchmark(test_data)

if abs(test_acc - sim_acc) > 0.01:
    # Sim ile chip arasında fark > %1
    investigate()
    update_simulator_model()

Saha verisi simulator’a feedback. Sim model gerçeğe yakın tutulur.

Compliance + sertifikasyon:

SIDRA çipleri için sertifika:

  • CE (Avrupa).
  • FCC (ABD).
  • TSE (Türkiye).
  • AEC-Q100 (otomotiv için Y10+).
  • DO-254 (havacılık için Y100+).

Her sertifika test + doküman + bağımsız audit.

Üretim hatalarına benchmark:

Y1 hedefi:

  • Wafer yield: %75.
  • Package yield: %95.
  • System yield: %95.
  • Net: %67. Sektör tipik (TSMC 28 nm, ~75-85%).

Y10+ daha sıkı, hedef %80 net.

Deney: Y1 Test Akışı

Wafer batch (1000 wafer):

  • 1000 × 38 die = 38,000 die.
  • Wafer test %75 yield: 28,500 iyi die.
  • Wafer test maliyeti: 1/dietest=1/die test = 38K.

Paketleme: 28,500 die paketlendi.

  • Package test %95: 27,075 iyi paket.
  • Test maliyet: 5/paket=5/paket = 135K.

System test: 27,075 paket.

  • System test %95: 25,720 sevkiyat-hazır çip.

Net üretim yield: 25,720 / 38,000 = %67.7.

Maliyet/çip:

  • Wafer: 1000×1000/25,720=1000 × 1000 / 25,720 = 38.9.
  • Paketleme: 50×27,075/25,720=50 × 27,075 / 25,720 = 52.6.
  • Test: (38K+38K + 135K + 135K)/25,720=135K) / 25,720 = 12.0.
  • Toplam: ~$103/çip üretim maliyeti.

Müşteri fiyat hedefi $50-200/çip Y1 için. Marj makul.

Kısa Sınav

1/6Üretim test 3 aşama nedir?

Laboratuvar Görevi

Müşteri sahada SIDRA çipi sorunu rapor etti.

Senaryo: Müşteri “Y1 çipim 6 ay sonra MNIST doğruluğu %97’den %94’e düşmüş” diyor.

Tanı adımları:

  1. Boot log incele (sıcaklık, voltaj OK mu).
  2. Failure map istatistiği çek (cell failure rate normal mi).
  3. Reference MVM doğruluk ölç.
  4. Drift analiz (zaman serisi).
  5. Periyodik refresh çalıştır.
  6. Doğruluk yeniden ölç.

Tipik sonuç:

Drift birikmiş → refresh yapılmamış. SDK auto-refresh özelliği aktif değildi. Ayar düzeltildi → doğruluk %97’ye geri.

Önleme: SDK default’da auto-refresh on. Customer education materyali.

Özet Kart

  • Üretim test: wafer → package → system. Net yield ~%67.
  • Boot kalibrasyon: 100 ms her açılış.
  • BIST: in-chip test, boot otomatik.
  • Periyodik runtime test: drift/sıcaklık düzelt.
  • Failure map + ECC: runtime tolerance.
  • MTBF: 11 yıl hedef.
  • Üretim maliyet: ~$103/Y1 çip.

Vizyon: Otomatik Test ve Bakım

  • Y1: klasik test + boot kalibre.
  • Y3: ML-tahminli test (defekt pattern öğrenme).
  • Y10: self-healing crossbar (otomatik refresh).
  • Y100: chip kendi kendini optimize (online learning ile).
  • Y1000: bio-uyumlu cihaz olarak yıllarca self-repair.

Türkiye için: test + kalibrasyon yazılımı SIDRA atölye işletmesinin temeli. Türkiye yerli test ekipmanları (Aselsan, BİLGEM partnerleri).

Daha İleri