Tidligere refererte repoet til dokumentasjon som lå utenfor (i Salg/_mal/), og brukte Obsidian-wikilinks [[...]] som ikke er klikkbare i Gitea. Begge deler gjorde at lenker var døde i Gitea-web. Endringer: - Hentet inn arbeidsdokumentene som faktisk brukes under oppdraget: _metode/ (00-konvensjoner, 01-startklar-sjekkliste, 02-gjennomforing) artefakter/ (risikoregister, integrasjonslandskap, workshop-agenda, domenemodell-skjema) - Konverterte 82 Obsidian-wikilinks til standard markdown-lenker med korrekte relative stier — klikkbare både i Gitea og lokalt - Begrepsord i begrepskatalogen ([[Bedrift]] etc.) ble til ren tekst (de var aldri filer) - Oppdaterte konvensjonsdokumentet til å foreskrive standard markdown, ikke wikilinks (med begrunnelse: Gitea rendrer ikke [[...]]) - Oras/Kirken/salgsmateriale er nå tydelig merket som eksterne arbeidsområde-referanser (andre kunder / salgsfase), ikke dinglende lenker som lot som de var i repoet Verifisert: 133 ekte interne lenker resolver korrekt. De 4 gjenværende treffene i validering er kodeeksempler i backticks (viser lenke-syntaks), ikke faktiske lenker. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
64 lines
2.3 KiB
Markdown
64 lines
2.3 KiB
Markdown
---
|
|
title: "Datakvalitet som AI-premiss — Standard Online"
|
|
date: "YYYY-MM-DD"
|
|
tags: ["ai", "datakvalitet", "premiss"]
|
|
refs:
|
|
- "ai-prinsipper.md"
|
|
- "../4.informasjonsarkitektur/masterdata-og-eierskap.md"
|
|
- "../4.informasjonsarkitektur/datakvalitet-og-avvik.md"
|
|
qa:
|
|
status: "draft"
|
|
version: 1
|
|
---
|
|
|
|
# Datakvalitet som AI-premiss
|
|
|
|
## Prinsipp
|
|
|
|
**AI-agenter blir bare så pålitelige som dataene under dem.** En agent settes ikke i produksjon mot et domene før domenet har:
|
|
|
|
1. Tydelig **System-of-Record**
|
|
2. Definert **Dataforvalter**
|
|
3. Minimum akseptabel **datakvalitet** for use casen
|
|
4. Sporbar **datakilde** for treningsdata (hvis aktuelt)
|
|
|
|
## Modenhets-gate per domene
|
|
|
|
Per masterdata-domene må følgende være på plass før AI-agenter slippes inn:
|
|
|
|
| Krav | Lenke |
|
|
|---|---|
|
|
| SoR tildelt | [masterdata-og-eierskap](../4.informasjonsarkitektur/masterdata-og-eierskap.md) |
|
|
| Dataforvalter utnevnt | [masterdata-og-eierskap](../4.informasjonsarkitektur/masterdata-og-eierskap.md) |
|
|
| Begrepskatalog dekker entitetene | [begrepskatalog](../4.informasjonsarkitektur/begrepskatalog.md) |
|
|
| Datakvalitet kjent (måling utført) | [datakvalitet-og-avvik](../4.informasjonsarkitektur/datakvalitet-og-avvik.md) |
|
|
| Personverntiltak på plass | [tiltak-for-innebygd-personvern](../5.personvern-og-sikkerhet/tiltak-for-innebygd-personvern.md) |
|
|
| Tilgangsstyring etablert | [identifiserbarhet-og-tilgang](identifiserbarhet-og-tilgang.md) |
|
|
|
|
## Per use case
|
|
|
|
| AI-use case | Domene(r) | Modenhet | Klar for produksjon? |
|
|
|---|---|---|---|
|
|
|
|
## Garbage in, garbage out
|
|
|
|
Konkrete risikoer hvis datakvalitet ikke er på plass:
|
|
|
|
- **Hallusinasjon-amplifisering:** LLM-er bygger på data — dårlig data gir feilaktige svar med høy konfidens
|
|
- **Skjevhet (bias):** Manglende eller skjev data gir diskriminerende output
|
|
- **Reproduserbarhet:** Uten kjent kilde kan man ikke reprodusere eller fikse feil
|
|
- **Ansvar:** Hvem svarer for feil hvis dataeier ikke er utpekt?
|
|
|
|
## AI-treningsdata
|
|
|
|
Hvis modeller trenes på Standard Onlines data:
|
|
|
|
- **Behandlingsgrunnlag:** Hva er GDPR-grunnlaget for å bruke persondata til trening?
|
|
- **Anonymisering:** Kan data anonymiseres før trening?
|
|
- **Sletting:** Hvordan håndteres sletteforespørsler — må modellen retrenes?
|
|
- **Versjonering:** Hvilken datasnapshot trente vi på?
|
|
|
|
---
|
|
|
|
*Klassifisering: Begrenset*
|