Tietorakenteet, tiedon laatu ja tunnisteet

Jotta tutkimustieto olisi mahdollisimman käytettävää ja löydettävää, on syytä kiinnittää erityistä huomiota tietorakenteisiin ja semantiikkaan. Erilaisten aineistojen ja julkaisujen kohdalla on olemassa erilaisia käytäntöjä, jotka ovat peräisin eri tutkimus- ja julkaisuperinteistä. Avoimen tieteen järjestelmien ja käytäntöjen tulee huomioida eri yhteisöjen tarpeet, mutta myös tavoitella mahdollisimman hyvää yhteentoimivuutta ja löydettävyyttä. Kestävä tutkimus vaatii esimerkiksi pysyviä yksilöivä tunnisteita. Vain näin voidaan turvata aineistojen ja viittausten säilyvyys pitemmällä aikavälillä. Sähköisessä ympäristössä myös jatkuvat päivitykset ja uusien versioiden syntyminen vaatii kaikilta toimijoilta suunnitelmallisuutta ja kestävyyden huomioimista tutkimuksen uskottavuuden vuoksi.

Yhtenäiset yksilöintikäytännöt ovat erityisen tarpeellisia, kun tietojärjestelmät vaihtavat informaatiota avointen rajapintojen kautta, useiden eri järjestelmien kanssa. Tällöin käytettävät tietosisällöt, mm. koodistot ja niiden versiot, on tunnistettava eli yksilöitävä. Kansainvälisesti on yksilöity mm. puhelinnumerot, sähköpostiosoitteet, kirjat (ISBN-numero), tuotteet (EAN-koodi). Yksilöinnissä voidaan käyttää ISO OID-yksilöintitunnusta. ISO OID-yksilöintitunnus on kansainvälisesti vain yhteen objektiin liitettävä numeroarvo, joka yksilöi kyseisen objektin yksiselitteisesti ISO:lle varatussa yksilöintijärjestelmässä. Muita yksilöintitunnuksia ovat mm. URI-nimet (Uniform Resource Identifiers) ja UUID (Universal Unique IDentifier). Yksilöintitunnuksella (object identifier) tarkoitetaan ilmiön, kuten tutkimusjulkaisun, tunnistamista yksikäsitteisellä tunnuksella, jolla se voidaan erottaa muista vastaavista. Yksikäsitteisyys voi olla paikallista, alueellista, kansallista tai kansainvälistä.

Tutkimusjulkaisujen tunnisteena voidaan käyttää julkaisutyypistä riippuen esimerkiksi ISBN:ää (monografiat) tai erilaisia pysyviä tunnisteita (persistent identifiers, PIDs), joista Handle-tunnistetta käytetään esimerkiksi julkaisuarkistoissa, DOI:ta kaupallisten kustantajien järjestelmissä ja URN-tunnusta kansalliskirjastojen digitaalisissa kokoelmissa. Tutkimusdatalle sovelletaan kansainvälisissä ja kansallisissa hankkeissa lähes yksinomaan PID-tunnisteita, suomalaisessa tutkimusjärjestelmässä yleisimmin (esim. Opetus- ja kulttuuriministeriön hankkeet) URN:ää.  Useat suomalaiset palvelut jakavat julkaisuille ja aineistoille  Kansalliskirjaston myöntämän URN-tunnisteen. Aineistojen lisäksi tarvitaan tunnisteita tutkijoille sekä tutkimusprosessiin osallistuville juridisille henkilöille (yliopistot ja muut korkeakoulut sekä tutkimuslaitokset; tiedekunnat ja niiden laitokset, tutkimusryhmät). Näiden tunnisteiden soveltamista Suomessa selvitetään erikseen.

Hyvä tieteellinen käytäntö -ohjeen mukaan tutkijoiden tulee ottaa muiden tutkijoiden työ ja saavutukset asianmukaisella tavalla huomioon kunnioittamalla heidän tekemäänsä työtä ja viittaamalla heidän julkaisuihinsa asianmukaisella tavalla. Tunnisteiden ja muiden standardien avulla organisoidut tietosisällöt voidaan paremmin saada kansalliseen ja kansainväliseen käyttöön, sillä tunnisteista voidaan muodostaa pysyviä verkko-osoitteita ns. Resolver-palveuiden avulla. Tunnisteet tukevat näin tiedon globaalia löytyvyyttä ja täsmentävät näin tiedonhakuja.

  • Huolehdi kaikkien aineistojesi ja julkaisujesi mahdollisimmaan laajasta kuvailusta
  • Aikaan ja paikkaan liittyvät tiedot ovat myös tärkeitä, ilmoita ne ohjeiden mukaan
  • Käytä oman alasi terminologiaa ja asiasanoja
  • Muista myös vapaamuotoinen ja ainakin osittain yleistajuinen kuvaus: mistä on kysmys? (description)
  • Suosi sanastoja,  ontologioita ja yleisessä käytössä olevia termejä löytyvyyden takaamiseksi
  • Lisenssi/käyttöehdot ovat tärkeä metatieto, koneluettava formaatti kuten CC-lisenssi on suositeltava
  • Muuttujakohtaiset metatiedot ja niiden kuvailu on hyvä tarkistaa yhdessä alan tietoarkiston kanssa
  • Huomio aineistojen historia- ja versiotiedot yksiselitteen viittaamisen mahdollistamiseksi
  • Esimerkiksi kirjastoista ja tietoarkistoista löytää kuvailun ammattilaisia, joilta kannattaa pyytää apua ja vinkkejäHanki itsellesi ORCID-tunnus ellei sinulla ole sellaista ja käytä sitä joka yhteydessä
  • Huolehdi tunnisteiden käytöstä aina kun viittaat
  • Huolehdi omien julkaisujesi ja aineistojesi tunnisteista
  • Hanki aina uudelle versiolle uusi tunniste, jotta viitaukset ovat luotettavia
  • Vältä useamman tunnisteen hankkimista samalle kohteelle
  • Käytä tunnisteita ja linkityksiä ahkerasti!