--- title: "Datakvalitet som AI-premiss — Standard Online" date: "YYYY-MM-DD" tags: ["ai", "datakvalitet", "premiss"] refs: - "ai-prinsipper.md" - "../4.informasjonsarkitektur/masterdata-og-eierskap.md" - "../4.informasjonsarkitektur/datakvalitet-og-avvik.md" qa: status: "draft" version: 1 --- # Datakvalitet som AI-premiss ## Prinsipp **AI-agenter blir bare så pålitelige som dataene under dem.** En agent settes ikke i produksjon mot et domene før domenet har: 1. Tydelig **System-of-Record** 2. Definert **Dataforvalter** 3. Minimum akseptabel **datakvalitet** for use casen 4. Sporbar **datakilde** for treningsdata (hvis aktuelt) ## Modenhets-gate per domene Per masterdata-domene må følgende være på plass før AI-agenter slippes inn: | Krav | Lenke | |---|---| | SoR tildelt | [masterdata-og-eierskap](../4.informasjonsarkitektur/masterdata-og-eierskap.md) | | Dataforvalter utnevnt | [masterdata-og-eierskap](../4.informasjonsarkitektur/masterdata-og-eierskap.md) | | Begrepskatalog dekker entitetene | [begrepskatalog](../4.informasjonsarkitektur/begrepskatalog.md) | | Datakvalitet kjent (måling utført) | [datakvalitet-og-avvik](../4.informasjonsarkitektur/datakvalitet-og-avvik.md) | | Personverntiltak på plass | [tiltak-for-innebygd-personvern](../5.personvern-og-sikkerhet/tiltak-for-innebygd-personvern.md) | | Tilgangsstyring etablert | [identifiserbarhet-og-tilgang](identifiserbarhet-og-tilgang.md) | ## Per use case | AI-use case | Domene(r) | Modenhet | Klar for produksjon? | |---|---|---|---| ## Garbage in, garbage out Konkrete risikoer hvis datakvalitet ikke er på plass: - **Hallusinasjon-amplifisering:** LLM-er bygger på data — dårlig data gir feilaktige svar med høy konfidens - **Skjevhet (bias):** Manglende eller skjev data gir diskriminerende output - **Reproduserbarhet:** Uten kjent kilde kan man ikke reprodusere eller fikse feil - **Ansvar:** Hvem svarer for feil hvis dataeier ikke er utpekt? ## AI-treningsdata Hvis modeller trenes på Standard Onlines data: - **Behandlingsgrunnlag:** Hva er GDPR-grunnlaget for å bruke persondata til trening? - **Anonymisering:** Kan data anonymiseres før trening? - **Sletting:** Hvordan håndteres sletteforespørsler — må modellen retrenes? - **Versjonering:** Hvilken datasnapshot trente vi på? --- *Klassifisering: Begrenset*