Sensitiivisten aineistojen vastuullinen avaaminen

7.4.2021
Naamio.

Sensitiivisten aineistojen avaaminen vaatii erityistä tarkkuutta, mutta se ei ole mahdotonta. Haastattelimme aiheesta Tietoarkiston tietoasiantuntija Annika Valarantaa.

Tutkimusdatan avoimen saatavuuden osalinjauksessa painotetaan tutkimusaineistojen ja -datan vastuullista hallintaa ja avaamista. Yksi vastuulliseen aineistonhallintaan olennaisesti kuuluva tekijä on sensitiivisten aineistojen huomioiminen. Sensitiivisiä aineistoja saa avata, mutta vastuullisesti.

Niin anonymisoitua kuin tarpeellista

Sensitiivisten aineistojen avaamista ei ole kielletty. Aineistoa pitää vain ensin käsitellä sillä tavoin, että sen avaamisesta ei ole kenellekään harmia. Tämä ei tarkoita sensitiivisten tietojen täydellistä poistamista – jos esimerkiksi harvinaista sairautta käsittelevästä aineistosta poistettaisiin kaikki viittaukset tähän sairauteen, se ei luultavimmin olisi kauhean hyödyllinen jatkotutkimuksia varten.

Tietosuoja-asetuksessa sensitiivisiksi määritellään erityisiin henkilötietoryhmiin liittyvät tiedot, kuten uskonnollinen vakaumus, seksuaalinen suuntautuminen, terveystiedot ja etnisyys. Näiden lisäksi sensitiivisiä ovat kaikenlaiset aineistot, joihin liittyy riski esimerkiksi fyysisestä tai taloudellisesta harmista, kuten yhteisöllisiä tabuja koskevat tarkat kuvaukset henkilökohtaisesta elämästä tai yritysten liikesalaisuudet. Vaikka aineisto kokonaisuudessaan ei käsittelisi sensitiivisiä aiheita, siihen voi sisältyä yksittäisiä sensitiivisiä tietoja, jos vaikkapa aineistoon on kerätty taustatietoja tutkittavien henkilöiden uskonnollisesta vakaumuksesta.

Sensitiivisten tietojen poiston sijaan aineisto voidaan anonymisoida eli siitä poistetaan tai karkeistetaan suoria tai epäsuoria tunnisteita, kunnes siitä ei voida kohtuullisin keinoin tunnistaa ketään yksittäistä henkilöä. ”Harvinaista sairautta käsittelevässä aineistossa saatetaan esimerkiksi yksittäisten paikkakuntien sijaan nostaa luokittelua maakuntien tai suuralueiden tasolle, jos joissakin kunnissa tätä sairautta on todettu vain tietyllä henkilöllä”, Valaranta selittää. Anonymisoinnin avulla sensitiivisiäkin asioita koskevia aineistoja voi käyttää uudelleen ilman pelkoa, että tutkimuksen kohteille aiheutuu tästä haittaa.

Käsityötä ja päättelykykyä

Valarannan työhön Tietoarkistossa aineistojen anonymisointi kuuluu olennaisena osana. Anonymisointi vie aikaa, sillä sen automatisointi on aivan alkutekijöissään. Etenkin laadullisten aineistojen anonymisointiin soveltuvia ohjelmistoja ei käytännössä ole. Määrällisten aineistojen kohdalla anonymisointiohjelmistoja on Tietoarkistossa jo testattu, mutta niidenkään soveltaminen ei ole yksinkertaista.

Anonymisoinnissa keskeistä on ymmärtää, mitkä ovat ne kohtuulliset keinot, joilla yksilön voisi aineistosta tunnistaa. ”Ei siis puhuta mistään hakkeroinnista, vaan ihan keskivertoihmisen mahdollisuuksista, kuten internetistä ja somekanavista”, Valaranta täsmentää. Myös julkiset rekisterit kuuluvat kohtuullisiin keinoihin. ”Jos haastatteluaineistossa naistohtori puhuu värikkäin sanankääntein omasta yliopistostaan ja julkisen opintorekisterin mukaan vain yksi naistohtori on väitellyt tiettynä vuonna tietystä yliopistosta, on haastateltavien taustatietoja syytä karkeistaa”.

Anonymisointi ei ole pelkkää rutiinia, vaan vaatii joskus suoranaista aivotyötä ja ympäröivän yhteiskunnan ymmärtämistä. ”Jos esimerkiksi jossain etnisessä ryhmässä on hyvin yhteisöllinen kulttuuri, voivat yhteisön jäsenet tunnistaa toisensa pienistäkin aineistoon jääneistä vihjeistä.”

Kaikkea ei voi anonymisoida

Kaikkia sensitiivisiä tutkimusaineistoja ei pysty anonymisoimaan. Aineisto saattaa esimerkiksi käsitellä niin pientä ihmisryhmää, että tutkimuksen kohteena olleet henkilöt olisi joka tapauksessa helppo tunnistaa. Tällöin aineistoa ei tietenkään voi avata. Tässäkin tapauksessa aineiston kuvailutiedot voi laittaa julkisiksi.

Mielenkiintoinen tilanne syntyy, jos esimerkiksi haastatteluaineiston kohdalla yksi haastateltava haluaa oman nimensä jäävän haastattelun yhteyteen. ”Tällaiset tapaukset ovat haastavia ja ne pitää käsitellä tapauskohtaisesti yhdessä aineiston tuottaneen tutkijan kanssa. Tietoarkisto arkistoi vain harvinaisissa tapauksissa suoria tunnisteita sisältävää dataa”, Valaranta kertoo.

Arkistointi henkilötietoineen kuitenkin onnistuu muutamassa tapauksessa. Ensinnäkin, jos kyse on sananvapaudesta eli esimerkiksi journalistisiin tarkoituksiin kerätyistä tai kirjallisen ilmaisun tarkoituksiin vaikkapa kirjoituskilpailuissa tuotetuista aineistoista. Toiseksi, jos kyse on yleisen edun mukaisesta henkilötietojen arkistoinnista ja tutkittavia on informoitu arkistoinnista henkilötietoineen Tietoarkistoon.

Suunnittele jo etukäteen

Tutkijan on hyvä miettiä jo ennen tutkimusaineiston keräämistä, sisältääkö se mahdollisesti sensitiivisiä tietoja. Tietosuoja-asetuksen määrittelemiin erityisiin ryhmiin kuuluvien tietojen keräämiseen tarvitaan poikkeusperuste. Lisäksi on erityisen tärkeää pyrkiä minimoimaan tutkimuksessa kerättävät henkilötiedot, jotta sensitiivisiä tietoja sisältävän aineiston anonymisointi olisi helpompaa. 

Tutkittavien henkilöiden informointi on erityisen keskeistä suunnitella hyvissä ajoin. Tutkittavia tulee aina informoida aineiston arkistoinnista jatkokäyttöön. Tutkittaville pitää myös kertoa, jos aineistoa ei voi täydellisesti anonymisoida, jotta he ymmärtävät selvästi, mitä tutkimukseen osallistumisesta seuraa.

Lisäksi tutkittaville pitää tehdä selväksi, mihin tarkoituksiin aineistoa voidaan käyttää jatkossa. Jos tutkittaville on luvattu, että aineistoa käytetään vain tutkimustarkoituksiin, sen saa avata vain tutkimusyhteisön jäsenten käyttöön. Erityistä huolenpitoa vaativia aineistoja voi jopa avata vain erillisellä hakemuksella käytettäväksi.

Valarannan mukaan tutkijat ottavat vastuullisen aineistonhallinnan yhä paremmin huomioon jo tutkimuksen suunnitteluvaiheessa. Tämä ei tarkoita, että tutkijoista pitäisi tulla oman ydinosaamisensa lisäksi tietosuojan asiantuntijoita. Tietoarkiston ja muiden organisaatioiden data-asiantuntijat ovat valmiina auttamaan tutkijoita, mutta heitä kannattaa lähestyä mahdollisimman varhain.

Lisää aiheesta:

Teksti: Ilmari Jauhiainen (Avoimen tieteen koordinaatio)
Kuva: Tamara GakUnsplash

Tämä uutinen on osa Tutkimusdatan avoimen saatavuuden osalinjausta pohjustavaa sarjaa.