Miten avoin tutkimusdata näkyy Tampereen yliopiston Lasten, nuorten ja äitien terveyden tutkimuskeskuksen Kansainvälisen lääketieteen ryhmässä ja kuinka datan laadusta huolehditaan? Haastattelimme tilastotieteilijä Lotta Hallamaata.
Tampereen yliopiston Kansainvälisen lääketieteen ryhmä tutkii äitien ja lasten terveyttä ja hyvinvointia useista eri näkökulmista. Tutkimus keskittyy etenkin kolmeen, läheisesti toisiinsa kytkeytyvään teemaan: malariaan ja muihin infektioihin, ennenaikaiseen syntymään ja lapsuuden aliravitsemukseen.
Tilastotieteilijä Lotta Hallamaa päätyi ryhmään mukaan omien sanojensa mukaan mutkien kautta kymmenisen vuotta sitten. Tavoitteena oli ensin vain yhden aineiston arkistointi ja avaaminen, mutta sitten uusia projekteja alkoi tulla lisää ja työtä riitti. Hallamaa on työskennellyt ryhmässä erityisesti datan hallintaan ja jakamiseen, mutta myös tilastoanalyyseihin liittyvissä tehtävissä.
”Ryhmässä suhtaudutaan hyvin positiivisesti avoimeen tutkimusdataan ja projekteissa kerätyn datan jakamiseen,” Hallamaa sanoo. ”Mutta haasteitakin löytyy, emmekä voi päättää jakamisesta ilman yhteistyökumppaneiden suostumusta.”
Dataa terveyttä ja hyvinvointia edistävistä tekijöistä
Kansainvälisen lääketieteen ryhmällä on lukuisia yhteistyökumppaneita ympäri maailmaa, muun muassa Afrikasta, Amerikasta, Australiasta ja Singaporesta. Yhtenä ryhmän tavoitteista on selvittää, löytyykö tutkimuksissa joitakin terveyteen tai hyvinvointiin erityisesti vaikuttavia tekijöitä.
”Tieto molempiin suuntiin auttaa, kun mietitään keinoja, joilla terveyttä ja hyvinvointia voisi lisätä,” Hallamaa kertoo. Monet käynnissä olevista tutkimusprojekteista ovat satunnaistettuja kliinisiä tutkimuksia tai kohorttitutkimuksia. “Jos tutkimus on satunnaistettu kliininen tutkimus, niin kaikki tutkittavat interventiot pyrkivät hyvinvoinnin lisäämiseen, mutta näissäkin tutkimuksissa usein on kiinnostuksen kohteena intervention vaikutuksen lisäksi se, löytyykö tutkittavilta jotain, mikä tekee heistä haavoittuvampia kuin muista.”
Suuri osa ryhmän datasta tulee Malawista, Saharan eteläpuoleisesta Afrikasta, missä ensimmäiset seurannat ovat alkaneet noin 20 vuotta sitten. Kansainvälisen lasten aliravitsemusta ehkäisevän iLiNS-projektin tutkimuksen keskiössä ovat olleet sekä raskaana olevat äidit että synnytyksen jälkeen myös heidän lapsensa, joiden kasvua ja kehitystä seurataan monin tavoin. Toinen tutkimusprojekti, jossa Hallamaa on ollut tiiviisti mukana ja josta hän on työstänyt väitöskirjaansa, on vuonna 2003 alkanut, raskaudenaikaisen malarian ja synnytyskanavan infektioiden vaikutuksia tutkiva LAIS-projekti.
Raskauden aikana tapahtuvan seurannan yhteydessä kerätään myös terveyteen sekä taustaan liittyviä tietoja, kuten ikä, aikaisemmat raskaudet tai lapset ja niin edelleen. Joissakin tutkimuksissa on seurattu myös masennusoireita ja niiden vaikutuksia. Lisäksi biologisista näytteistä on mahdollista analysoida pidemmän aikavälin muutoksia ja vaikutuksia esimerkiksi tiettyjen pitoisuuksien tai tulehdusarvojen osalta.
Datan laadusta huolehtiminen on puoli ruokaa
”Oma roolini datan kanssa vaihtelee hieman projektista riippuen,” Hallamaa kertoo. Joissakin projekteissa hän on ollut mukana datankeruulomakkeiden suunnittelusta tai tekemisestä asti. Tällöin pohditaan muun muassa sitä, miten itse dataa kerätään ja syötetään, sekä sitä, miltä se näyttää ja miten se tulee keruun jälkeen käsiteltäväksi, analysoitavaksi ja säilöttäväksi.
”Kun dataa alkaa tulla, niin tavoitteena on, että siitä näkisi heti, jos siinä on jotain hassusti.” Hallamaa toteaa. ”Keruuvaiheessa on ehkä ymmärretty jotakin väärin tai tulee muita systemaattisia virheitä.” Mitä aikaisemmassa vaiheessa mahdolliset epäkohdat huomataan, sen parempi. Kun mahdolliset virheet tai poikkeamat huomataan ajoissa, voidaan ne vielä korjata ja varmistaa, että loppukeruu sujuu oikein. Tällöin datasta tulee tarkoituksenmukaista ja käyttökelpoista.
Datan saapuminen keruumaasta ei ole aina itsestäänselvää. Osa ryhmän tutkimusprojekteista sijaitsee toisella mantereella ja joskus esimerkiksi kohdemaan sisäinen turvallisuustilanne voi asettaa haasteita tai suoranaisia esteitä tutkimuksen etenemiselle. Malissa tapahtui syksyllä 2020 vallankaappaus, mikä esti paikan päälle matkustamisen. Paikan päällä tapahtuvan seurannan avulla pyritään varmistamaan, että kaikki sujuu kuten pitääkin eikä mitään jää puuttumaan tai huku matkalla oikealle serverille.
Lisäksi datan laadunvalvontaan liittyy vielä saapuvan datan tarkka kuvailu. Parhaat tulokset saadaan, kun kuvailu aloitetaan jo keruun aikana, sillä tällöin asiat ovat vielä tuoreessa muistissa eikä tietoja tarvitse lähteä kaivamaan pitkän tauon jälkeen. Kuvailutiedot myös edistävät datan jatkokäyttömahdollisuuksia myöhemmin. Lopuksi kuvaan astuu vielä datan analysointi ja tutkimusjulkaisujen tekeminen.
Datankeruusta ja saapuneen datan laadusta myös raportoidaan eteenpäin. Muun muassa tutkimuksen turvallisuutta seuraavalle ryhmälle raportoiminen on myös yksi osa Hallamaan työtä: raportoinnilla todennetaan, että todella tehdään se, mitä on sovittu eikä keruun aikana ole ilmennyt odottamattomia turvallisuusriskejä.
Sensitiivisen datan jakamisen haasteet
”Lehdet alkavat enemmän ja enemmän pyytää, että artikkelissa käytetty data olisi avoimesti saatavilla,” Hallamaa sanoo. Tämä on hänestä sinänsä hyvä asia, mutta ongelmana on ennen kaikkea se, minne data laitetaan. Kansainvälisen lääketieteen ryhmän keräämät ja käsittelemät aineistot ovat sen verran sensitiivisiä, ettei niitä voi laittaa suoraan näkyville.
”Hyvin mielellämme antaisimme jonnekin arkistoitavaksi tämän datan, mitä meillä on, niin että se olisi sekä oman tutkimusryhmän että muidenkin saatavilla,” Hallamaa jatkaa. ”Mutta emme voi laittaa sitä ilman salasanaa minnekään nettiin, että lataa tuolta.”
Sopivaa arkistoa tai tallennuspaikkaa ei Hallamaan mukaan ole vielä toistaiseksi löytynyt. Yksi aineisto on otettu eräänlaiseksi pilottikokeiluksi, jonka tarkoituksena on muokata ja saada kyseinen aineisto arkistoitua avoimesti. Tampereen yliopiston Yhteiskuntatieteellisen tietoarkiston kanssa on käyty keskusteluja hyvässä hengessä, mutta uuden tietosuoja-asetuksen astuttua voimaan arkistojenkin on oltava tarkkoja siitä, millaista aineistoa ne ottavat vastaan. Tietoarkisto ei esimerkiksi tällä hetkellä voi arkistoida sellaista aineistoa, jossa datankeruu saattaa vielä jatkua. Lääketieteellisessä, mahdollisesti vuosikymmeniä kestävissä seurannoissa syntyvän aineiston ja datan kannalta vaade on ymmärrettävästi hankala. Osa aineistosta on Hallamaan mukaan ehkä mahdollista lyödä lukkoon valmiina paketteina, mutta monet projekteista jatkuvat edelleen. Lisäksi joitakin datapaketteja saatetaan haluta vielä myöhemmin yhdistellä muuhun, mikä olisi tässä tapauksessa mahdotonta. Tampereen yliopistolla on myös haettu osallistujia pitkäaikaissäilytyksen pilottihankkeeseen ja Hallamaan ryhmä on ilmoittautunut vapaaehtoiseksi. Jakamisongelmaa tämäkään ei kuitenkaan ainakaan alkuvaiheessa ratkaisisi.
Lainsäädännön tulkinnanvaraisuus ja suurpiirteisyys onkin Hallamaan mielestä suurimpana haasteena kansainvälisen lääketieteen ryhmän käsittelemien kaltaisten aineistojen avaamiselle. ”Kukaan ei ole oikein osannut sanoa, milloin data on tarpeeksi anonyymiä avoimille servereille,” hän toteaa. Hallamaasta on hyvin epätodennäköistä, että kukaan lähtisi selvittämään seurattujen henkilöiden taustoja tai tietoja, mutta tutkimusryhmässä ei ole haluttu ottaa riskejä tunnistettavuuden suhteen. Siksi päätettiin, ettei dataa arkistoida kiertoteitse. Dataa luokiteltaessa on riskinä esimerkiksi se, että osa yksityiskohdista häviää. Myös tutkimuksen toistettavuus kärsii, jos liian yleistämisen myötä datalla ei saakaan enää aikaan samoja tuloksia kuin artikkelissa on esitetty. Oman lisänsä haasteisiin tuo data, jonka keräysaikana avoimen tieteen kysymyksiä ei vielä tarkemmin pohdittu eikä suostumuslomakkeissa ole ollut mainintaa esimerkiksi jatkosäilytyksestä. Tällaisia kysymyksiä ryhmä on selvittänyt yhdessä lakimiesten kanssa, mutta työ on edelleen kesken.
Ystävällisiä vastauksia tulkinnanvaraisuuteen ja muihin datan jakamisen haasteisiin Hallamaa on saanut Tampereen yliopiston kirjastosta, mutta kukaan ei ole pystynyt konkreettisesti kertomaan, kuinka menetellä, vaan se on jäänyt Hallamaan ja muun ryhmän omaksi päätökseksi. ”Ei voi sanoa, että se suoranaisesti estäisi datan avaamista, mutta kyllähän se hidastaa, kun jokaisen datan kohdalla täytyy tapauskohtaisesti miettiä toimintatapoja datan jakamiselle käytännössä,” Hallamaa pohtii.
Datan jakamisen hyödyt
Haasteista huolimatta ryhmä on pyrkinyt avaamaan omissa projekteissaan kerätyn datan mahdollisuuksien mukaan. Ryhmän johtaja Per Ashorn suhtautuu Hallamaan mukaan erittäin myönteisesti kaikkiin tuleviin datapyyntöihin ja suurin osa niistä hyväksytäänkin – yhteistyökumppanien suostumuksella.
Datapyynnöt on hoidettu ryhmässä tällä hetkellä niin, että pyynnöt tulevat joko Hallamaalle tai yhdelle muista statistikoista, jotka sitten kasaavat tarvittavat tiedot käsin ja lähettävät ne eteenpäin. Tämä teettää työtä ja vie aikaa, sillä pyynnöt tulevat yleensä yksittäisinä. ”Olisi tosi hieno juttu, jos joskus tulevaisuudessa olisi semmoinen paikka, mihin voisimme jakaa datat ja kertoa ihmisille, että täällä se on,” Hallamaa sanoo.
Arvokkaan tutkimusdatan jakamisesta voi syntyä täysin uudenlaisia tutkimuksellisia avauksia, joita datan alun perin keränneelle ryhmälle ei olisi tullut mieleenkään tutkia tai mihin ei ole resursseja. Esimerkkinä Hallamaa kertoo saaneensa äskettäin meta-analyysia varten datapyynnön äitien raskaudenaikaisen malarian vaikutuksia käsittelevää tutkimusta varten: ”Raskausdata syntymään asti ja syntymätulokset oli jaettu heidän kanssaan jo aikaisemmin, mutta nyt he pyysivät dataa pidemmälle aikavälille tutkiakseen lasten kasvua ja kuolleisuutta.”
Datan avaamisesta ja jakamisesta tulevina hyötyinä Hallamaa näkee myös yhteistyön ja kontaktien sekä vastavuoroisuuden lisääntymisen. Sellaisilta tutkijoilta tai tutkimusryhmiltä, joiden kanssa tutkimusdataa on jaettu aiemminkin ja jotka tietävät, minkä tyyppistä dataa ryhmässä tuotetaan, tulee säännöllisiä datapyyntöjä. Pyyntöjä tulee kuitenkin myös täysin uusilta tahoilta, ja uusien kontaktien kautta myös dataansa jakava tutkimusryhmä saattaa löytää ja saada käyttöönsä uudenlaista dataa tai sellaista osaamista, mitä ei ole ennen ollut. Selvänä mitattavana hyötynä Hallamaa mainitsee myös julkaisujen määrän kasvun: ”Harvoinhan se niin on, että meidän dataa käytetään, mutta kukaan ei olisi viitannut meihin asianmukaisesti.”
Yli kymmenen vuotta vanhoja datoja käytetään Hallamaan mukaan edelleen aktiivisesti, ja hän onkin hyvillään siitä, etteivät uudet projektit jyrää niitä unohduksiin. ”Datan keräämiseen on käytetty paljon aikaa ja resursseja, joten olisi sääli, jos se jäisi vain oman tutkimusryhmän rajallisten resurssien käyttöön. Kun se isolla rahalla ja vaivalla kerätään, niin olisihan se kiva, että sitä oikeasti myös käytettäisiin, eikä vain katsottaisi muutamia asioita siitä.”
Artikkeli on osa avoimuuden hintaa käsittelevää artikkelisarjaa.
Teksti: Elina Suominen / Avoimen tieteen koordinaatio
Kuva: Donny Jiang / Unsplash