AI Otomasyon Pilot Projeleri: 30 Günde POC'tan Production'a
LLM tabanlı çözümleri demo'dan üretime taşımak için kullandığımız 30 günlük yol haritası ve eval pipeline pratikleri.
Mine Kaya
AI Mühendisi
AI projelerinin %70'i POC'ta kalıyor. Bunun ana sebebi 'iyi çalışıyor gibi göründü' duygusunun ölçülemez olması. Eval olmadan gönderdiğiniz her AI feature, gerçekte rastgele bir zar atışıdır.
0. Hafta — fizibilite
Bu hafta kod yazmıyoruz. 1) Sorunun gerçekten AI ile çözülmesi gerekiyor mu, kural tabanlı çözüm mümkün mü? 2) Veri var mı? 3) Başarı kriterimiz ne? Bu üç sorunun cevabı 'evet/hayır' netliğinde olmalı.
1.–2. Hafta — POC
Burada hızlıyız. Production altyapısı yok; bir notebook + prompt + 50 örnek input. Çıktıları manuel inceliyoruz. POC'un amacı kanıtlamak değil, çürütmek: 'bu hipotez doğru olmayabilir' delili topluyoruz.
3. Hafta — eval harness
POC çürütülmedi mi? O zaman eval pipeline'ı kuruyoruz. Test seti minimum 200 madde, manuel labellanmış. Her prompt değişikliği bu seti çalıştırıyor, regression test gibi. Bu olmadan production'a geçmiyoruz.
// Basitleştirilmiş eval örnegi
const results = await Promise.all(
evalSet.map(async (item) => {
const output = await model.generate(item.input);
return {
input: item.input,
expected: item.expected,
actual: output,
score: scorer(item.expected, output),
};
})
);
const passRate = results.filter(r => r.score >= 0.8).length / results.length;4. Hafta — production ve telemetri
Eval geçti, ama kullanıcı davranışı farklı olabilir. Production'da: token kullanımı, latency, kullanıcı geribildirimi (thumbs up/down) logluyoruz. Haftalık eval re-run ile drift kontrolü yapıyoruz.