Dieses Dokument legt allgemeine gängige Organisationsansätze, unabhängig von Art, Größe oder Beschaffenheit der anwendenden Organisation fest, um die Datenqualität für Training und Evaluierung in Analytik und maschinellem Lernen (ML) sicherzustellen. Es enthält Leitlinien zum Datenqualitätsprozess für:
- überwachtes ML in Bezug auf die Beschriftung von Daten, die für das Training von ML-Systemen verwendet werden, einschließlich gängiger organisatorischer Ansätze für die Beschriftung von Trainingsdaten;
- unüberwachtes ML;
- teilüberwachtes ML;
- bestärkendes Lernen;
- Analytik. Dieses Dokument ist auf Trainings- und Evaluierungsdaten anwendbar, die aus verschiedenen Quellen stammen, einschließlich Datenerfassung und -zusammenstellung, Datenaufbereitung, Datenbeschriftung, Evaluierung und Datennutzung. Dieses Dokument legt keine spezifischen Dienste, Plattformen oder Tools fest. Das zuständige nationale Normungsgremium ist der Arbeitskreis NA 043-01-42-03 AK "Daten" im DIN-Normenausschuss Informationstechnik und Anwendungen (NIA)
.