Datan avaaminen

Tutkimuksen julkaisijat ja rahoittajat edellyttävät yhä useammin, että tutkimuksen tausta-aineistot tuodaan mahdollisimman avoimesti saataville viimeistään tutkimuksen päätyttyä. Tutkimusaineistojen avoimella saatavuudella ja jaettavuudella edistetään tutkimusaineistojen jatkokäyttöä, josta hyötyvät aineiston tuottajan itsensä lisäksi muut tutkijat ja parhaimmillaan yhteiskunnat maailmanlaajuisesti. Aineistojen avaamisessa suositellaan kuitenkin lisenssejä, joiden avulla tutkija voi itse määritellä datansa julkisuuden astetta ja käyttöoikeuksia. On myös tärkeä huomioida rahoittajien ja tutkimusorganisaation ohjeistukset ja vaatimukset, lain ja tutkimusetiikan lisäksi.

Avoimuuden asteista

Toisin kuin tieteellisten artikkeleiden kohdalla, jotka ovat joko julkaistuja tai eivät, on totuttu ajattelemaan, tutkimusaineistolla voi olla erilaisia julkisuuden asteita. Aineiston julkisuuden aste voi määräytyä joko lainsäädännöllisten tai tallennusteknisten perusteiden mukaan.

Teknisestä avoimuudesta: Mitä tarkoittavat avoin ja koneluettava formaatti?

Avoin formaatti tarkoittaa yleisesti ottaen jotain ei-kaupallista formaattia, jonka käyttämiseen ei tarvita mitään kaupallista ohjelmaa. Esimerkiksi ASCII-muotoiset txt-tiedostot aukeavat millä vaan notepadin tapaisella ohjelmalla millä tahansa käyttöjärjestelmällä, mutta Microsoft Wordilla tehtyjä doc-dokumentteja ei saa välttämättä auki oikeannäköisenä ilman maksullista Wordia. Vastaavasti taulukkomuotoinen tieto kannattaa tallentaa ja jakaa pilkkueroteltuna, tekstimuoisena csv-tiedostona ennemmin kuin Excel-taulukkona. Jaettava aineisto pitäisi mahdollisuuksien mukaan tallentaa sellaisessa formaatissa, jossa sitä pystytään käyttämään mahdollisimman monilla käyttöjärjestelmillä ilman maksullisia ohjelmia.

Koneluetteavuus tarkoittaa, että tieto on sellaisessa muodossa että tietokone pystyy helposti käsittelemään tietoja. Yleinen PDF-tiedostomuoto ei esimerkiksi ole teknisesti katsottuna erityisen joustava eikä siinä julkaistu tieto ole helposti uudelleen käytettävää.  Koneluettavat formaatit ovat usein XML-pohjaisia formaatteja. Monilla aloilla on standardeja XML-pohjaisia formaatteja ko. alan aineistojen siirtoon. Esim. paikkatietoalalla tällainen formaatti on GML. Näiden erityisalojen ohjelmistoihin, esim. paikkatieto-ohjelmistoihin, sisältyy yleensä mahdollisuus tallentaa aineistot kyseisessä formaatissa tai muunnostoiminto kyseiseen formaattiin.

Tallennusteknisistä avoimuuden asteista konkreettisen kuvan antaa Tim Berners-Leen esittämän ns. viiden tähden malli  täydennettynä Linked Data Finlandin kahdella tähdellä:



1* Julkaise tiedostosi missä tahansa formaatissa avoimella lisenssillä, esim. Creative Commons-lisenssillä


2* Julkaise tiedostosi rakenteisessa muodossa, esim. XML tai CSV-taulukko


3* Käytä avoimia, ei-kaupallisia tiedostomuotoja, esim. CSV, ei Excel


4* Käytä URI-tunnisteita


5* Linkitä tiedostosi muihin kontekstin luomiseksi


6* Datan ja sen skeeman dokumentointi (automaattinen)


7* Datan laadun automaattinen validointi (ja korjailu)

Kyse on siis siitä, miten dynaamista ja käyttökelpoista aineisto on. Linkitetyssä avoimessa datassa rakenne on koneluettavaa ja yksiselitteistä, eli yleensä helppokäyttöistä moneen eri tarkoitukseen. Mitä enemmän tunnisteita datassa on, sen parempaa se usein on. Näissä teknisissä asioissa tutkijan kannattaa kääntyä tiedonhallinnan asiantuntijoiden puoleen, esimerkiksi oman alan tietoarkistoon.

Koneluettavuudesta saat lisätietoja mm. seuraavista linkeistä: Helsinki Region Infoshare ja Open Data Handbook.

Avoimuudesta käyttöoikeuksien suhteen

Täysin avoimesti saatavilla saattaa olla vain tiedot aineistosta, ja aineiston varsinainen käyttöön saaminen edellyttää käyttöoikeussopimuksen eli lisenssin hyväksymistä tai yksilöllisesti laadittua sopimusta. Tutkimusaineiston julkaiseminen verkossa ei vielä tarkoita, että aineistolla saisi tehdä mitä tahansa. Rajoituksia voi olla sekä teknisiä että juridisia. Julkaistua aineistoa saa ilman lupaakin katsoa, muttei välttämättä koskea. Muutenkin kannattaa miettiä voiko aineistosta julkaista osia, vaikkei kaikkea ehkä voi julkaista avoimesti.

 Aineiston käyttöehdoista määrää aina tutkimusaineiston tekijä tai se, kenelle tekijä on siirtänyt oikeudet määrätä aineistosta (tekijänoikeuslaki 404/1961). Aineistot voivat olla joko kaikille täysin avoimia tai käyttö sallitaan vain tiettyyn tarkoitukseen (yleensä tieteelliseen tutkimukseen). Aineistoissa saattaa olla joko arkaluontoisia (henkilötietolaki 523/1999" 11 §) tai salassa pidettäviä (laki viranomaisten toiminnan julkisuudesta 621/1999 24 §) tietoja tai liike- tai ammattisalaisuuksia, jotka tutkimustuloksia julkaistaessa on jätettävä pois. Aineiston käyttö voi olla myös rajoitettua. Tällaisen aineiston käyttöön saaminen (esim. lataaminen) voi edellyttää tapauskohtaisen sopimuksen tekemistä aineiston tekijän kanssa.

 Avoin tiede ja tutkimus -hanke suosittelee Creative Commons 4.0 -lisenssien (CC BY) käyttöä, ellei aineiston sisällöstä muuta johdu. Creative Commons Suomen toimintaa vetävät Helsinki Institute of Information Technology (HIIT) ja Aalto-yliopiston Taiteiden ja muotoilun koulun Medialaboratorio.

Etsin - tutkimuksen tietoaineistojen hakupalvelussa;on aineiston tietojen yhteydessä maininta, millaisin ehdoin aineistoa saa käyttää. Aineiston tekijä voi antaa käyttäjälle luvan tehdä aineistolla mitä vaan eli luopua kaikista oikeuksistaan, mutta silloinkin on huomattava, että sekä tekijänoikeuslaki että hyvä tieteellinen käytäntö edellyttävät, että tekijä mainitaan hyvän tavan mukaisesti. Näin on, vaikka aineisto olisi julkaistu CC0-lisenssillä. Tekijä saa ja voi asettaa aineiston käytölle tiettyjä ehtoja. Näillä ehdoilla hän antaa käyttöluvan aineistoonsa eli lisensoi aineistonsa. Jos aineisto julkaistaan jollain avoimella lisenssillä (esim. CC0 tai CC BY 4.0), niin aineiston julkaisija antaa kaikille aineiston lataajille oikeuden käyttää ja muokata aineistoa lisenssissä määritellyillä ehdoilla. Silloin käyttäjien ei tarvitse erikseen tehdä tai allekirjoittaa sopimusta eikä aineiston tuottajan tarvitse tietää, ketkä aineistoa käyttävät.

Creative Commons 4.0 Nimeä -lisenssi on ollut myös pohjana työryhmällä, jonka tehtävänä oli laatia suositus Suomen julkishallinnon avoimiin tietoaineistoihin sovellettavasta, kansainvälisesti yhteentoimivasta avoimen datan käyttöluvasta. JHS 189 Avointen tietoaineistojen käyttölupa on tänään Suomessa virallinen suositus. Lisenssin valintaa auttamaan on olemassa omasivustonsa.  Myös Avoindata.fi tukee Creative Commons-käyttölupaa. Lisää tietoa löydät käsikirjan Aineistonhallinta-osasta.



Embargo eli julkaisuviive

Globaalien ilmiöiden tutkiminen edellyttää usein työlästä ja kallista aineiston keruuta esimerkiksi kokeilla tai mittauksilla – ja toisaalta aineiston hyvää saatavuutta kansainvälisesti. Tällaisissa tapauksissa aineiston julkaisemiselle sovitaan usein suoja-/karanteeniaika (proprietary period, embargo), jonka aikana aineiston tuottajat voivat valmistella oman tutkimuksensa ja artikkelinsa ennen aineiston julkaisua muun tiedeyhteisön ja jatkotutkimuksen hyödynnettäväksi. Suoja-ajan pituus vaihtelee esimerkiksi kustantajan, rahoittajan tai tutkimusorganisaation mukaan. Tyypillisesti se on noin 1-3 vuotta datan keruuhetkestä alkaen.

Tieteellisten julkaisujen kuten artikkelien tapauksessa embargo tarkoittaa usein kustantajan määrittelemää viiveaikaa, jonka aikana artikkelia ei saa julkaista vapaaseen verkkokäyttöön. Embargo-aika lasketaan alkavaksi lehden ilmestymispäivästä, joko elektronisen version tai painetun lehden ilmestymispäivästä riippuen siitä, kumpi tapahtuu aiemmin. Embargoaika vaihtelee kustantajien välillä, mutta on normaalisti noin 6-12 kk. Kaikilla kustantajilla viivevatimusta ei ole.

 

< edellinen sivu seuraava sivu >