Tutkijoiden ääni datan kuvailutyöhön: lisää tukea ja arvostusta

14.11.2022
Kädet kirjoittamassa kannettavalla tietokoneella, kirjapino pöydällä.

Tutkimusdatan kuvaileminen on välttämätöntä, jotta aineisto on ymmärrettävää. Tutkijat pääsivät pohtimaan omia tutkimusdatan kuvailun käytäntöjään CSC:n ja Itä-Suomen yliopiston järjestämissä työpajoissa.

Tutkimusaineiston kuvailu on monesti tutkimusprojektin akilleen kantapää, ja se koetaan työlääksi, aikaavieväksi ja vaikeaksi. Samoin voivat ajatella myös tutkimuksen tukihenkilöt, koska kuvailuun liittyy niin paljon asioita, jotka vaativat perehtymistä. Myös kuvailun käytännöt sekä ohjeistukset vaihtelevat projekti- ja tieteenalakohtaisesti. Halusimme kuulla tutkijoiden kertomana, mitä ajatuksia tutkimusaineistojen kuvailu heissä herättää ja minkälaista tukea he siihen kaipaisivat.

Tutkimusaineistojen kuvailu on tärkeää

Mikäli tutkimuksen aikana tutkimusdataa ja siihen liittyviä prosesseja ei dokumentoida, datasta ei hetken päästä enää ymmärrä kukaan, ei edes tutkija itse, eivätkä muut sen potentiaaliset hyödyntäjät. Hyvään tieteelliseen käytäntöön kuuluu, että tutkimus on toistettavissa tutkimusprojektin jälkeen ja tutkimustulokset verifioitavissa. 

Tämä ei tietenkään onnistu, ellei jokaisessa tutkimuksen vaiheessa ole tuotettu tutkimusdataa kuvailevaa tietoa muun muassa siitä, miten data on luotu, miten tietoja olisi tulkittava, mikä on datan rakenne ja mitä työkaluja ja analysointimenetelmiä on käytetty sisältäen tiedot versioista ja tehdyistä muutoksista. Tällaista kuvailevaa tietoa kutsutaan metadataksi. Kuvailutiedon sisältö kannattaa muotoilla allalla käytössä olevien metadatastandardien mukaisesti ja tallentaa käyttäen avoimia tiedostomuotoja, jotta data olisi yhdistettävissä muihin vastaaviin datakokonaisuuksiin ja koneiden luettavissa eli koneymmärrettävässä muodossa.

Tässä kohdin on hyvä huomioida, että termejä tutkimusaineisto ja tutkimusdata käytetään joskus enemmän tai vähemmän synonyymeinä ja joskus tutkimusaineiston ajatellaan olevan tutkimusdataa laajempi kokonaisuus, jolloin se sisältää myös muussa kuin digitaalisessa muodossa olevaa aineistoa. Käsillä olevassa tekstissä käytämme termejä jokseenkin synonyymeinä. 

Lyhyt kooste työpajoista

CSC ja Itä-Suomen yliopisto järjestivät yhteistyössä kaksi virtuaalityöpajaa, joissa kuulimme kuvailun käytännöistä tutkijoiden itsensä kertomana. Työpajat oli suunnattu ennen kaikkea tutkimusaineistojen hallinnan ja tuen parissa työskenteleville henkilöille, jotka muodostavat melko heterogeenisen joukon koulutustaustaltaan, osaamisalaltaan tai organisaatioltaan. Osalla on informaatiotutkimuksen alalle kuuluva tutkinto tai alan opintoja, osalla tutkijatausta ja vaikkapa käytännön työn kautta karttunutta tutkimusaineistonhallinnan osaamista. Tukihenkilöiden pitäisi pystyä tarjoamaan tietoa ja käytännön tukea tutkijoille oikeaan aikaan ja ymmärrettävällä tavalla. Metadatan ympärillä käydään paljon keskustelua, ja aihepiiriä on puitu ja sitä on sivuttu monissa virallisissa ja epävirallisissa tapaamisissa. Kiinnostus työpajoja kohtaan olikin suuri. Molemmissa työpajoissa oli n. 70 osallistujaa.

Ensimmäinen työpaja 28.9.2022 keskittyi luonnontieteisiin. Alustajina toimivat Matti Ruuskanen Turun yliopistosta aiheenaan mikrobiekologia, Ari Mujunen Aalto-yliopistosta aiheenaan tähtitiede Metsähovin radiotutkimusasemalla ja Pasi Kolari Helsingin yliopistosta aiheenaan ilmakehätutkimus SMEAR-hankkeessa. 

Seuraavalla viikolla (6.10.2022) järjestettiin humanistisiin tai ihmistieteisiin keskittynyt työpaja. Työpajassa kuultiin kielikorpuksiin liittyvän tutkimuksen kuvailuarjesta. Samuli Kaislaniemi Itä-Suomen yliopistosta kertoi englantilaisen filologian ja historiallisen sosiolingvistiikan aineistoista  ja Tero Alstola Helsingin yliopistosta puolestaan Lähi-idän kulttuurien ja kielten tutkimuksesta ja kieliteknologiasta.Yksityiskohtaisemmat koosteet työpajoista löytyvät eduuni-wikistä.

Toiveita tutkijoilta

Molemmissa työpajoissa tutkijat nostivat esiin samankaltaisia, aiemminkin jo usein tunnistettuja asioita, joiden ratkaisuun kaivataan nyt toimia. Olemme listanneet näitä ongelmia ja niiden ratkaisuun tähtääviä ehdotuksia ja toiveita alle. Monet voidaan liittää osaamiseen ja konkreettisiin tukitarpeisiin. 

  • Perusosaamisessa on puutteita. Koulutukseen tulee panostaa jo kandi- ja maisterivaiheessa. Vähintään tutkimusdatan ja analyysikoodin keräämisen, dokumentoinnin ja säilytyksen periaatteet tulisi sisällyttää osaksi koulutusta.
  • Terminologia on hankalaa. Vaikeista asioista, kuten metadatasta, tulisi puhua yksinkertaisemmin. Jo pelkästään puhuminen kuvailusta metadatan sijaan voisi helpottaa vuoropuhelua tutkijoiden, palveluntarjoajien, rahoittajien ja tutkimuksen tuen välillä. Parhaimmillaan tämä helpottaisi tutkijan omaa työtä. 
  • Tutkimukseen tarvitaan riittävästi tukipalveluita. Tutkijoille pitää olla tarjolla tukea sekä yleisellä että alaspesifisellä tasolla.
  • Arkaluonteisen tai salassapidettävän datan erityispiirteet tuottavat erityistä päänvaivaa. Tällaisen datan kanssa työskentelyyn tarvitaan lisää osaamista esim. keräämiseen, dokumentointiin ja uudelleenkäytön mahdollisuuksien ratkaisuihin.
  • Ohjeet ovat liian yleisellä tasolla. Käytännön ohjeita kaivataan esimerkiksi siitä, miten ja missä dataa kannattaa avata, miten tiedostoja ja kansioita nimetään ymmärrettävästi, miten dataa tulisi kuvailla ja miten luodaan koneluettavaa kuvailua. Lisäksi tietoa tarvitaan alakohtaisista datastandardeista, sanastoista ja työkaluista. 
  • Tutkimusperinteet ovat jarruna. Tutkijat saattavat istua oman datansa päällä, mikä heijastuu myös kuvailun käytänteisiin (riittää että itse ymmärtää tai luulee ymmärtävänsä aineiston, jolloin ei ole tarvetta pohtia ymmärrettävyyttä laajemmin). Pitäisi saada luotua toimintakulttuuri, jossa aineistojen kuvailua suunnitellaan ja toteutetaan yhdessä ja heti projektin alkumetreiltä alkaen.
  • Arvostus ja meritoituminen. Hyvin kuvatun ja uudelleenkäytettävän datan tulisi meritoida tutkijaa. Kuvailu ei meritoi, mutta se vaatii vähintäänkin aikaa, joskus myös rahaa. 

Vaikka tieteenalakohtaisuus tutkimusperinteineen ja aineistotyyppeineen on huomioitava, mikä tuli selkeästi työpajoissakin esiin, tieteenalariippumattomat, yleiset tukipalvelut ovat tarpeen. Sitä kautta voi löytää ratkaisuja, jotka auttavat laajentamaan omaa näkemystä siitä, miten tutkimusdatan kanssa voi toimia. Tutkimusorganisaatioiden datatuella on siis merkittävä rooli. 

Paljon on myös sellaista, mikä ei ole tutkijoiden, palveluiden tuottajien tai tukihenkilöiden ratkaistavissa, suurimpana varmastikin kysymys tutkijoiden meritoitumisesta. Tutkintojen sisällöt eivät nekään ratkea ilman laajaa keskustelua ja päätöksentekoa: Jos aineistonhallinnan osaamista ja opetusta tarvitaan jo perusopintovaiheessa, se edellyttää vähintään tiedekunta- ja oppiainetason kannanottoa ja päätöstä. Tutkimusaineistojen hallinnan tuen riittävä resurssointi edellyttää myös organisaatiotason toimintaa.

Miten tästä eteenpäin?

Sekä kuulijoiden että alustajien palautteet olivat innostuneita, ja jatkoa yhteiseen keskusteluun tutkimusaineistojen kuvailusta varmasti odotetaan monella taholla. Palautteiden perusteella tämänkaltaiselle keskustelevalle, osaamista ja tietoa jakavalle toiminnalle olisi tilausta ihan säännöllisestikin. Työpajoja pidettiin samalla hyvänä lähtökohtana jollain tavoin rikastettaville tai sisällöllisesti monipuolisemmille kuvailutyöpajoille. Tutkijoiden palautteesta välittyi myös kokemus siitä, että kuvailuun panostaminen ja siitä muille kertominen avaa uusia näkymiä omaan aineistoon.

Konkreettisiin jatkotoimiin ei vielä päästy, mutta joitain ajatuksia työpajojen ja niiden jälkeisissä keskusteluissa on heitetty ilmaan. Suunnittelu jatkuu ja jatkoa varmasti seuraa.

Työpajat järjestivät ja blogin kirjoittivat yhteistyössä Manna Satama Itä-Suomen yliopistosta sekä Siiri Fuchs ja Päivi Rauste CSC:ltä.

Kuva: Pexels/Polina Zimmerman

Sinua saattaisi kiinnostaa myös