Riskbaserade urvalsprofiler och likabehandling
PUBLICERAD 2018-06
Rapporten är utformad för att öka förståelsen för de resultat som genereras av maskininlärningsalgoritmer. Något som till en början visar på god träffsäkerhet kan vid närmare undersökning visa sig vara diskriminerande. Analysen påvisar betydelsen av att ha en kausal modell i botten när prediktiva modeller skattas och tillämpas. Slutsatserna kretsar kring frågor som rör träffsäkerhet och rättssäkerhet och hur dessa i många avseenden motverkande storheter är relaterade och kan vägas i förhållande till varandra för att nå effektivitet i exempelvis kontrollarbete.
En kontrollmetod kan vara träffsäker, det vill säga att en stor andel av de kontroller som görs innehåller felaktigheter, utan att vara rättssäker. Det händer om exempelvis två grupper gör fel i lika stor utsträckning men endast den ena gruppen följs upp. Denna rapport påvisar denna risk genom exempel.
Modeller som bygger på att söka korrelationer mellan ett stort antal variabler och ett utfall är också känsliga för så kallad confounding. Det innebär att ett samband mellan två variabler är en chimär. Det uppstår om båda variablerna är påverkade av en tredje variabel. Situationen blir särskilt komplicerad om denna tredje variabel inte kan observeras. Sådana samband kan leda till skeva utfall om det inte finns en kausal modell i grunden som har konstruerats för att hantera detta. Sådana effekter har central betydelse för diskussionen i rapporten.
Rapporten diskuterar också hur träffsäkra modeller kan testas och vid behov justeras för att garantera rättssäkerheten. Eftersom rapporten utarbetats som en del i ett regeringsuppdrag kring Försäkringskassans användning av urvalsprofiler1 så refererar diskussionen till Försäkringskassans kontrollarbete. Men metoddiskussionen och slutsatserna är allmängiltiga och går att använda i andra sammanhang där liknande modeller används.