Tutkijan ääni: Sanaista arkkua avaamassa – kieliaineistoja saataville

7.6.2021

Miten kieliaineistojen käytettävyyttä ja saavutettavuutta voidaan parantaa? Haastattelimme aiheesta ja hieman aiheen vierestä suomen kielen ja suomalais-ugrilaisen kielentutkimuksen yliopistonlehtori ja dosentti Tommi Kurkea Turun yliopistosta.

”Monella saattaa olla sellainen harhaluulo, että humanistit eivät tarvitse laitteita, tekniikkaa tai infraa”, toteaa suomen kielen ja suomalais-ugrilaisen kielentutkimuksen yliopistonlehtori ja dosentti Tommi Kurki Turun yliopistosta. Pari vuotta sitten häntä pyydettiin mukaan opiskelijoille suunnattuun aineistonhallintakoulutukseen, koska järjestäjien näkemyksen mukaan kielitieteissä ei ollut aineistoja. ”Se nätisti sanottuna huvitti.”

Kurki tutkii etenkin puhuttua kieltä, sen eri osa-alueita ja siinä tapahtuvia muutoksia mutta myös sitä, millaisia mekanismeja muutosten takana on. Kaikki tämä edellyttää jonkinlaista seurantaa tai havainnointia. Seurannan aikana kertyvistä aineistoista suurin osa on yhden tai useamman henkilön puhetilanteita taltioivia äänitteitä ja videoita sekä näiden transkribointeja eli foneettisia litterointeja, mutta mukaan mahtuu myös tutkimuspäiväkirjoja, muistiinpanoja ja muita havainnoinnin ja tallennuksen aikana syntyneitä tuotoksia.

Tuhansia tunteja äänitallenteita

Mistään aivan pienistä määristä tutkimusdataa ja -aineistoja ei myöskään puhuta, vaan kerätyt aineistot voivat olla hyvinkin laajoja. Varhaisimmat systemaattiset kielitieteelliset aineistonkeruut Suomessa voidaan ajoittaa 1800-luvulle, jolloin kerättiin esimerkiksi murresanastoa ja nimistöä kyselemällä, kuuntelemalla ja kirjaamalla ylös.

Pitkittäistutkimuksissa aikajänne kattaa yleensä vuosikymmeniä. Esimerkiksi Helsingissä sijaitseva, vuonna 1959 perustettu, Suomen kielen nauhoitearkisto SKNA käsittää noin 24 000 tuntia äänitteitä. Näistä noin kaksi kolmasosaa on digitoitu. Vastaavia kokoelmia löytyy muistakin kaupungeista, mutta SKNA on tiettävästi paitsi Suomen, myös maailman suurin kielitieteellinen äänitearkistokokonaisuus.

Varsinkin fennistiikan eli suomen kielen tutkimuksen alalla monet tutkijat tai tutkimusryhmät keräävät edelleen itse käyttämänsä aineistot, mutta myös jo olemassa olevia arkistokokoelmia voidaan hyödyntää tutkimuksessa joko pää- tai täydentävinä lähteinä. Mahdollista on käyttää myös sellaista audiovisuaalista materiaalia, jota ei ole alkujaan tarkoitettu tutkimus- tai opetuskäyttöön, esimerkiksi tapahtuma- tai televisio-ohjelmatallenteita.

Digilang – Kieliaineistojen saavutettavuutta ja käytettävyyttä kehittämässä

Turun yliopisto on viime vuosina panostanut avoimen tieteen periaatteiden ja toimintatapojen edistämiseen. Yliopistolla on oma digitaalisessa muodossa olevat aineistot käsittävä datapolitiikka, jossa määritellään datan keräämistä, käyttöä ja hallintaa ohjaavat ja määrittävät periaatteet.

Datapolitiikan ja avoimemman tieteen ja tutkimuksen henki näkyy myös kieli- ja käännöstieteiden laitoksen yhteisessä UTU-Digilang -hankkeessa (2018–2021). Hanke alkoi Turun yliopiston humanististen kieliaineistojen kehittämisen näkökulmasta, mutta sittemmin mukaan on liittynyt myös kielentutkimusta ja kieliteknologiaa yhdistelevä TurkuNLP-tutkimusryhmä.

”Kielitieteellisillä aineistoilla on omat vakiintuneet kansalliset ja kansainväliset käyttäjäkuntansa jo entuudestaan”, hankkeen johtajana toimiva Kurki kertoo. Yhtenä hankkeen tavoitteista onkin saavuttaa Turun yliopiston ainutlaatuisille kieliaineistoille ja -työkaluille entistäkin suurempi käyttäjäkunta ja kohottaa yliopiston profiilia ja näkyvyyttä kieliaineistojen tuottajana.

Tämä tapahtuu pysyvän, Digilang-nimeä kantavan kieliaineistoportaalin (2018) ja -tallennuspaikan (2020) kautta. Ennen portaalihanketta eri kielten omat aineistot olivat pitkälti erillään eivätkä tutkijat välttämättä olleet tietoisia toistensa aineistoista. Digilang-rahoituksella on kehitetty kuutta kieliaineistoa niiden omissa osahankkeissaan. Mukana on Lauseopin arkiston (LA) aineistoja sekä muita suomen kielen ja suomalais-ugrilaisen kielentutkimuksen kieliaineistoja, TurkuNLP-ryhmän kehittämiä Universal Parsebanks -aineistoja sekä kieli- ja käännöstieteilijöiden LOG-aineisto.

Monet hankkeen aineistoista ovat jäsentämättömiä puhe- ja tekstiaineistoja eli annotoimattomia korpuksia. Esimerkiksi valtavat, miljardeja sanoja sisältävät Universal Parsebanks -aineistot taas ovat puoliautomaattisesti tai automaattisesti syntaksijäsennettyjä ja LOG-aineistot auttavat visualisoimaan ja havainnoimaan käännösprosesseja. Osa aineistoista on digitoitu ja osa kerätty sellaisenaan digitaalisessa muodossa. Digitointi tai digitaalinen olomuoto eivät kuitenkaan itsessään vielä varmista aineistojen tai tutkimusdatan saavutettavuutta. Keskeistä hankkeessa onkin Kurjen mukaan ollut nykyisten aineistojen käytettävyyden ja saavutettavuuden kehittäminen, mutta myös uusia aineistoja luodaan koko ajan.

Mallina Digilang-portaalille ovat toimineet suuret digitaaliset kieliarkistot ja kokoelmatietokannat, joissa suuriakin hakuja on helppo tehdä. Tällä hetkellä portaaliin on syötetty noin 30 aineiston metatiedot eli tiedot siitä, mistä aineistot löytyvät ja mitä ne sisältävät. Osa aineistoista sisältää sensitiivistä ainesta, joten aineistojen käyttö- ja katseluoikeudet vaihtelevat – osa on avoinna kaikille, osa taas edellyttää kirjautumista tai henkilökohtaisia käyttöoikeuksia. Aineistojen monimuotoisuudesta ja erityispiirteistä johtuen osan käyttöön saatetaan vaatia myös ulkoisia lisätyökaluja. Käyttöympäristöjen ja myös itse aineistojen saavutettavuutta kehitetään mahdollisuuksien mukaan entisestään.

Kehittämistyössä kohdattuja haasteita

Kurki uskoo, että portaalin varsinaiset hyödyt ja jatkokäyttömahdollisuuksien kirjo tulevat selvemmin näkyviin vasta myöhemmin, kun kaikki aineistot on saatu lisättyä mukaan. Aineistojen lopullisista jakelukanavista ei ole vielä tehty keskitetysti päätöksiä. Osa aineistoista on tähänkin saakka kuulunut kansalliseen Kielipankkiin, eikä Kurki näe mitään syytä sille, miksi näiden aineistojen jakelu järjestettäisiin tulevaisuudessa toisin. ”Tarkoitus ei ole kilpailla Kielipankin kanssa, vaan täydentää sitä, ja keventäähän se yliopistojen omaakin taakkaa”, hän huomauttaa.

Tallenteet vievät paljon tilaa, puhuttiin sitten niiden fyysisestä tai digitaalisesta säilytyksestä, ja niiden käsittely vaatii riittäviä resursseja ja tehoja käytettävältä teknologialta. Kurjen mukaan hankkeessa vastaan tulleet haasteet ovat olleet lähinnä osahankekohtaisia, esimerkiksi juuri tallennustilaan tai muihin teknisiin seikkoihin liittyviä. Myös aineistojen konvertointiin tai annotointiin kytkeytyviä haasteita on saattanut ilmetä. Omat haasteensa asettavat lisäksi aineiston koostamiseen ja yksilönsuojaan liittyvät kysymykset. EU:n GDPR -tietosuoja-asetuksen mukaan ihmisillä on oikeus pyytää omien tietojensa poistamista sellaisista yhteyksistä, missä eivät halua olla mukana. ”Isoissa tietokannoissa, korpuksissa, joissa jokaisella palapelin palalla on oma tehtävänsä, voi syntyä ongelmia, jos monet yhtäkkiä kieltävät itseensä liittyvän aineiston käyttämisen”, Kurki toteaa.

Joukkoistamista ja koneoppimista – datankeruun tulevaisuus

Helposti ajatellaan, että kielessä tapahtuvista muutoksista puhuttaessa tutkitaan vain menneiden aikojen kieltä, mutta myös nykyajassa tapahtuvia ja nykykieltä tutkivia hankkeita on paljon.

Kurjen ja soveltavan kielitieteen tohtori Tommi Niemisen ideoimassa prosodisten – esimerkiksi intonaatioon, sanapainoihin, rytmiin ja tempoon liittyvien – erojen tarkasteluun keskittyvässä Prosovar-hankkeessa kerättiin ääntä verkon kautta vuosina 2014–2016. Hanketta varten kehitettiin erityisiä äänentallennussovelluksia, joilla osallistujat saattoivat nauhoittaa omaa puhettaan tietokoneella tai mobiililaitteilla. Osallistujille esitettiin erilaisia ärsykkeitä ja kysymyksiä virtuaalisessa osallistavassa ja pelimäisessä ympäristössä. He pääsivät myös kuulemaan muiden puhetta eri yhteyksissä sillä ehdolla, että nauhoittivat itse jotakin. Harkitun tai satunnaisotannan sijaan osallistujia haettiin sosiaalisen median kautta ja sana levisi lumipallomaisesti, kun sivulle rekisteröityneet käyttäjät kertoivat ystävilleen tai muille verkostoilleen.

Prosovar-hankkeesta saatuja kokemuksia on hyödynnetty myös viime aikoina laajasti esillä olleessa Lahjoita puhetta -hankkeessa. Automaattinen puheentunnistus toimii yleiskielen kohdalla jo melko hyvin, mutta murteet ja kielen variaatiot tuottavat haasteita. Erilaiset sovellukset ja ympäristöt voidaan opettaa ymmärtämään paremmin suomea ja sen murteita, mutta tämä ei tapahdu opettamalla sovelluksille yksittäisiä sanoja, vaan sovellusten pitää pystyä tunnistamaan puhevirrasta eri äänteitä ja paikantamaan sananrajoja. Hankkeella halutaan luoda ja tukea suomenkielisiä palveluita, ja tässä uudentyyppinen data on ollut Kurjen mukaan hyödyksi.

”Tulevaisuudessa todennäköisesti mennään entistä enemmän siihen suuntaan, että luodaan virtuaalisia tilanteita, jotka nauhoitetaan,” Kurki pohtii. Siksi Prosovar-hanke olikin hänestä hyödyllinen kokeilu. Kun tutkijoilla on ennen mennyt aikaa ja aputyövoiman muodossa rahaa siihen, että aineistoja on saatu, nopeuttaa verkon yli tapahtuva keruu aineistojen keräämistä huomattavasti. Litterointi on toinen hidas työvaihe, ja siihen Kurki toivoo helpotusta teknologian kehittymisestä. Jos kaikki menee hyvin, voidaan tulevaisuudessa tehdä nykyistä tarkempia foneettisia transkriptioita tietokoneavusteisesti.

Artikkeli on osa avoimuuden hintaa käsittelevää artikkelisarjaa.

Teksti: Elina Suominen / Avoimen tieteen koordinaatio
Kuva: Kelly Sikkema / Unsplash