Veřejnost Úředníci Akademičtí pracovníci Často se ptáte Kontakty

24.3. - 30.3.2025 probíhá údržba systému s možnými krátkodobými výpadkyx

Hodnocení modelu/promptu

Evaluace definuje metriky (accuracy, F1, BLEU, human ratings) a referenční datasety. Pro LLM se používají rubric-based hodnocení, A/B testy a čtení bezpečnostních zásahů. Nutná je slepá kontrola a intercoder agreement, aby výsledky nebyly zkreslené. Online měření (telemetrie) doplňuje offline testy a zachycuje reálné chování. Bezpečnostní eval posuzuje úniky, halucinace a citlivý obsah. Výsledky se promítají do rozhodnutí o nasazení a risk appetite. Chybí-li kontinuální evaluace kvalita klesá s měnícím se prostředím.

» Slovník pojmů eGovernmentu