Generatiivinen tekoäly ja CC-lisenssit

19.3.2025

Kuvituskuva, jossa on CC-lisenssin tunnus.

Voiko Creative Commons -lisenssillä ilmoittaa, että sisältöä saa käyttää generatiivisen tekoälyn koulutukseen? Haastattelimme aiheesta Sitran johtavaa asiantuntijaa Tarmo Toikkasta.

Aloitetaan siitä, mikä on selvää: generatiivisen tekoälyn tuottamat sisällöt eivät sinänsä ole tekijänoikeuden alaisia. Esimerkiksi tekstin osalta tekoäly on samanlainen, joskin monimutkaisempi tukityökalu kuin kielenhuolto-ohjelma. Jos tekoälyllä muokatun tekstisisällön tuottamisessa ihmisen rooli on merkittävä, tältä osin tekijänoikeus syntyy tälle henkilölle, Sitran johtava asiantuntija Tarmo Toikkanen kertoo.

Vaikeampi kysymys on, missä määrin tekoälymallin kouluttaminen jollain sisällöllä voi rikkoa alkuperäisen sisällön tekijänoikeutta. Periaatteessa analogiaa voisi hakea verkkosisältöjä indeksoivista hakukoneista, Toikkanen esittää. Hakukoneen indeksointi ei riko tekijänoikeutta, koska se ei luo kopioita alkuperäisestä sisällöstä. Vastaavasti voisi ajatella, että tekoälymallien koulutuksessa ei varsinaisesti kopioida sisältöjä, vaan sisältöjen avulla vain muutetaan tiettyjen sanojen ja merkitysten välisten yhteyksien painoarvoja mallin sisällä.

Hankalammaksi tilanne muuttuu, jos mietitään tilannetta, jossa tekoälyn tuottama sisältö muistuttaa hyvin paljon sisältöä, jolla tekoälyä on koulutettu. Äärimmäisen harvinaisia, joskin teoreettisesti mahdollisia ovat tapaukset, joissa tekoäly tuottaisi täydellisen kopion sisällöstä, jolla se on koulutettu, Toikkanen pohtii. Joka tapauksessa jopa vain tietyn tekijän sisältöä muistuttavan sisällön luominen tekoälyllä saattaa johtaa oikeudenkäynteihin tekoälyn luonutta yritystä vastaan – ainakin jos takana on ison toimijan merkittävä taloudellinen intressi.

Entäpä CC-lisenssit?

Avoimen tieteen kannalta kiinnostavia ovat tietysti tapaukset, joissa tutkimustuotoksen tekijä nimenomaisesti haluaa omaa tuotostaan hyödynnettävän tekoälymallien koulutuksessa. Periaatteessa CC-lisenssi ilmoittaa, että sisältöä voivat muutkin hyödyntää, joten nopeasti ajateltuna voisi luulla, että yksi hyödyntämistapa olisi juuri tekoälymallien luomisessa.

Ongelmaksi muodostuu kuitenkin jo CC BY -lisenssiin sisältyvä ehto, että sisällön tekijä pitäisi ilmoittaa, Toikkanen toteaa. Esimerkiksi kuvia generoivassa Stable Diffusion -työkalussa on mukana toimintoja, joilla kuvan metatietoihin tallentuu tieto generoidun kuvan pohjana olleiden kuvien tekijöistä. Tekstiä generoivan tekoälyn kohdalla koulutukseen käytettyjen sisältöjen määrä on jo niin valtava, että vastaavan listan tekeminen olisi mahdotonta.

Monimutkaisemmilla CC-lisensseillä vaikeudet vain kasvavat. Esimerkiksi joihinkin CC-lisensseihin liittyvä SA-ehto edellyttää, että lisensoidusta teoksesta tehty muunnelma täytyy lisensoida samalla CC-lisenssillä. Jos tällaista lisenssiä pitäisi tekoälymallin koulutuksessa noudattaa, tekoälyn pitäisi pystyä tunnistamaan, milloin sillä generoitu sisältö ei ole itsenäinen tuotos, vaan muunnelma alkuperäisestä sisällöstä. Tällainen erottelu ei aina ole suoraviivaista ihmisellekään, vaan vaatii hienovaraista tulkintaa, Toikkanen muistuttaa.

Apua preferenssisignaaleista

Eräänlaiseksi standardiksi ilmoittaa, mitkä ohjelmat saavat haravoida sisältöjä tietyllä alustalla ja millä ehdoilla, on muodostunut alustaan liitetty robots.txt-tiedosto. EU-alueella tämän käytännön lakiteknisenä selkänojana toimii tekijänoikeusdirektiivi, johon sisältyy vaatimus, että sisältöjen haravoimisesta pitää voida halutessaan kieltäytyä. Toki tekijänoikeusdirektiivi toimii vain EU:n alueella, Toikkanen muistuttaa. Lisäksi robots.txt on nimenomaan alusta- eikä sisältökohtainen työkalu.

Creative Commons on kehittämässä preferenssisignaaleiksi kutsuttua työkalua, jolla sisällön tekijä voisi antaa tarkempia määrittelyjä, millaisen tekoälyn koulutukseen sisältöjä saisi käyttää. Näin esimerkiksi lääketieteellisen tutkimustuotoksen tekijä pystyisi kertomaan, että hänen tuotostaan voi hyödyntää hoitotyössä käytettävän tekoälyn kouluttamiseen, muttei biologisia aseita suunnittelevan tekoälyn kouluttamiseen.

Preferenssisignaalien kehittäminen on vielä hyvin alkuvaiheissaan, ja suunnitteilla on vasta alustava malli, jota voisi lähteä tarkemmin pilotoimaan. Lisäksi preferenssisignaalit olisivat toteutuessaankin enemmän eettinen koodisto, jonka ympärille toki voisi rakentua sertifikaattijärjestelmä niistä tekoälyistä, jotka sitä noudattavat.

“Kun tällä hetkellä mietitään, miten pitäisi ilmoittaa tekoälyn rooli jonkin sisällön tekijänä, kenties jo joidenkin vuosien päästä tekoäly on kaiken takana oletusarvoisesti ja erikseen merkitään, jos jokin sisältö on 100% luomua eli ihmisen tekemää”, Toikkanen visioi.

Haastattelu: Ilmari Jauhiainen (TSV)

Kuva: Umberto, Unsplash

Avoin tiede

Generatiivinen tekoäly ja CC-lisenssit

Entäpä CC-lisenssit?

Apua preferenssisignaaleista

Sinua saattaisi kiinnostaa myös