Evaluace definuje metriky (accuracy, F1, BLEU, human ratings) a referenční datasety. Pro LLM se používají rubric-based hodnocení, A/B testy a čtení bezpečnostních zásahů. Nutná je slepá kontrola a intercoder agreement, aby výsledky nebyly zkreslené. Online měření (telemetrie) doplňuje offline testy a zachycuje reálné chování. Bezpečnostní eval posuzuje úniky, halucinace a citlivý obsah. Výsledky se promítají do rozhodnutí o nasazení a risk appetite. Chybí-li kontinuální evaluace kvalita klesá s měnícím se prostředím.