Test, Kalibrasyon, Doğrulama
Bir SIDRA çipi sahaya gitmeden önce — kalite kontrolün katmanları.
Önkoşul
Bu bölümde öğreneceklerin
- Üretim test akışını (wafer test → package test → system test) say
- Boot-time kalibrasyon adımlarını detayla
- BIST (Built-In Self-Test) ve donanım sürekli doğrulama
- Failure mode analizi ve RMA (Return Merchandise Authorization) süreci
- AI doğruluk verification (model bazlı QA) standartları söyle
Açılış: Çip Üretildi, Şimdi Ne?
419M memristör + milyarlarca transistör. Hepsi doğru çalışıyor mu? Test, test, test.
Üretim sonrası 3 aşama:
- Wafer test: her die test, %75 yield.
- Package test: paketlenmiş çip, %95 başarı.
- System test: anakart üstünde, gerçek workload.
Sonra sahaya gider. Sahada sürekli boot-time kalibrasyon + BIST.
Sezgi: Çoklu Test Katmanları
Wafer (38 die)
↓ probe test (her die)
İyi die (~28)
↓ paketleme
Çip (~95% kabul)
↓ system test
Sevkiyata hazır (~%70 toplam yield)
↓
Saha (boot-time kalibre + BIST)Her aşama defekt yakalama amaçlı. Geç yakalanan defekt pahalı.
Formalizm: Test Aşamaları
Wafer test (probe card):
Wafer üzerinde her die’a probe iğnesi temas. Test:
- DC test: voltaj/akım sınırlar.
- Memori test: SRAM bit-by-bit.
- Crossbar test: 16 referans hücre programla + oku.
- Interconnect test: BAR mapping.
Süre: 30 sn/die. 38 die wafer = 20 dakika.
Failed die’lar işaretlenir, paketleme’ye gönderilmez.
Package test:
Paketlenmiş çip:
- PCIe enumeration (BIOS görmesi).
- Tam memori test (DDR/SRAM).
- Tam crossbar test (her hücre programla + oku).
- Termal stres (85°C, 1 saat).
Failed çip RMA → tedarikçiye iade.
System test:
Anakarta takılı çip:
- Tam SDK çalışır.
- MNIST + ResNet inference doğruluk.
- 24 saat stres test.
Geçen çip “kabul edilir”, müşteriye gider.
Boot-time kalibrasyon:
Çip her açıldığında:
1. Voltaj rails stabilize.
2. Termal sensörler aktif.
3. Bandgap reference kalibre.
4. Her crossbar 16 referans hücre oku → DAC scale ayarla.
5. Failure map yükle (NVRAM'dan).
6. SRAM init.
7. Driver READY signal.Süre: ~100 ms (Modül 6.3’te detay).
BIST (Built-In Self-Test):
Çip içinde test devre. Boot’ta otomatik çalışır:
void bist_run(void) {
// SRAM walking-bit test
for (int addr = 0; addr < SRAM_SIZE; addr++) {
for (int bit = 0; bit < 32; bit++) {
sram[addr] = (1 << bit);
assert(sram[addr] == (1 << bit));
}
}
// Crossbar reference test
for (int xb = 0; xb < N_CROSSBARS; xb++) {
program_reference(xb);
if (!verify_reference(xb)) {
mark_crossbar_bad(xb);
}
}
// Compute engine test
for (int op = 0; op < N_OPS; op++) {
result = run_op(op, test_input);
assert(result == expected[op]);
}
}Hatalı bileşen → failure map güncelle, ECC redundant’a yönlendir.
Periyodik runtime test:
Inference sırasında %1 sıklıkta referans MVM çalış. Sonuç sapması varsa kalibre.
if (inference_count % 100 == 0) {
actual = run_reference_mvm();
if (abs(actual - expected) > THRESHOLD) {
recalibrate_all();
}
}Drift, sıcaklık değişimi otomatik düzeltme.
Failure mode analizi:
Çoğu failure üretim sırasında yakalanır. Kalan failure’lar saha:
| Failure | Sıklık | Aksiyon |
|---|---|---|
| Cell drift | %1/yıl | ECC + auto-refresh |
| Single CU dead | %0.1/yıl | Failure map + reroute |
| Cluster fault | %0.01/yıl | Performance düşüş, bildirim |
| Total chip fail | %0.001/yıl | RMA, replace |
MTBF (Mean Time Between Failures) hedef: 100,000 saat = 11 yıl.
RMA süreci:
Müşteri arıza bildirir → ticket → SIDRA satış → yedek çip gönder → arızalı geri al → analiz → tedarik zinciri iyileştirme.
Saha verisi → üretim iyileşme. Kapalı döngü.
AI doğruluk verification:
Kompil edilmiş model gerçek SIDRA’da deploy edildikten sonra:
test_acc = chip.benchmark(test_data)
sim_acc = simulator.benchmark(test_data)
if abs(test_acc - sim_acc) > 0.01:
# Sim ile chip arasında fark > %1
investigate()
update_simulator_model()Saha verisi simulator’a feedback. Sim model gerçeğe yakın tutulur.
Compliance + sertifikasyon:
SIDRA çipleri için sertifika:
- CE (Avrupa).
- FCC (ABD).
- TSE (Türkiye).
- AEC-Q100 (otomotiv için Y10+).
- DO-254 (havacılık için Y100+).
Her sertifika test + doküman + bağımsız audit.
Üretim hatalarına benchmark:
Y1 hedefi:
- Wafer yield: %75.
- Package yield: %95.
- System yield: %95.
- Net: %67. Sektör tipik (TSMC 28 nm, ~75-85%).
Y10+ daha sıkı, hedef %80 net.
Deney: Y1 Test Akışı
Wafer batch (1000 wafer):
- 1000 × 38 die = 38,000 die.
- Wafer test %75 yield: 28,500 iyi die.
- Wafer test maliyeti: 38K.
Paketleme: 28,500 die paketlendi.
- Package test %95: 27,075 iyi paket.
- Test maliyet: 135K.
System test: 27,075 paket.
- System test %95: 25,720 sevkiyat-hazır çip.
Net üretim yield: 25,720 / 38,000 = %67.7.
Maliyet/çip:
- Wafer: 38.9.
- Paketleme: 52.6.
- Test: (135K + 12.0.
- Toplam: ~$103/çip üretim maliyeti.
Müşteri fiyat hedefi $50-200/çip Y1 için. Marj makul.
Kısa Sınav
Laboratuvar Görevi
Müşteri sahada SIDRA çipi sorunu rapor etti.
Senaryo: Müşteri “Y1 çipim 6 ay sonra MNIST doğruluğu %97’den %94’e düşmüş” diyor.
Tanı adımları:
- Boot log incele (sıcaklık, voltaj OK mu).
- Failure map istatistiği çek (cell failure rate normal mi).
- Reference MVM doğruluk ölç.
- Drift analiz (zaman serisi).
- Periyodik refresh çalıştır.
- Doğruluk yeniden ölç.
Tipik sonuç:
Drift birikmiş → refresh yapılmamış. SDK auto-refresh özelliği aktif değildi. Ayar düzeltildi → doğruluk %97’ye geri.
Önleme: SDK default’da auto-refresh on. Customer education materyali.
Özet Kart
- Üretim test: wafer → package → system. Net yield ~%67.
- Boot kalibrasyon: 100 ms her açılış.
- BIST: in-chip test, boot otomatik.
- Periyodik runtime test: drift/sıcaklık düzelt.
- Failure map + ECC: runtime tolerance.
- MTBF: 11 yıl hedef.
- Üretim maliyet: ~$103/Y1 çip.
Vizyon: Otomatik Test ve Bakım
- Y1: klasik test + boot kalibre.
- Y3: ML-tahminli test (defekt pattern öğrenme).
- Y10: self-healing crossbar (otomatik refresh).
- Y100: chip kendi kendini optimize (online learning ile).
- Y1000: bio-uyumlu cihaz olarak yıllarca self-repair.
Türkiye için: test + kalibrasyon yazılımı SIDRA atölye işletmesinin temeli. Türkiye yerli test ekipmanları (Aselsan, BİLGEM partnerleri).
Daha İleri
- Bir sonraki bölüm: 6.10 — Üretim Yığını Lab
- Önceki: 6.8 — Digital Twin
- Üretim test: Bushnell & Agrawal, Essentials of Electronic Testing, Springer.
- BIST: Mukhopadhyay et al., IEEE TVLSI BIST tutorial.