![]() |
![]() |
Hankekoodi: A78202
Hankkeen nimi: Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti
Toimintalinja: 2. Uusimman tiedon ja osaamisen tuottaminen ja hyödyntäminen
Erityistavoite: 4.1. Tutkimus-, osaamis- ja innovaatiokeskittymien kehittäminen alueellisten vahvuuksien pohjalta
Suunnitelman mukainen toteutusaika: Alkaa 1.9.2021 ja päättyy 31.8.2023
Toiminnan tila: Toiminta päättynyt
Vastuuviranomainen: Etelä-Savon maakuntaliitto
Hakijan virallinen nimi: Kansallisarkisto
Organisaatiotyyppi: Valtion viranomainen
Y-tunnus: 0245885-9
Jakeluosoite: PL 258
Puhelinnumero: 029 533 7000
Postinumero: 00171
Postitoimipaikka: Helsinki
WWW-osoite: http://www.arkisto.fi
Hankkeen yhteyshenkilön nimi: Maija Mäkikalli
Yhteyshenkilön asema hakijaorganisaatiossa: Projektipäällikkö
Yhteyshenkilön sähköpostisoite: eura.neuvonta(at)gov.fi
Yhteyshenkilön puhelinnumero: 0295337356
Hakijoiden lukumäärä tai tuen siirto -menettely:
Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti
Hankkeen tavoitteena on saada aikaan tekoälyä hyödyntäen ratkaisuja muistiorganisaatioiden digitaalisten aineistojen laadun ja käytettävyyden kehittämiseksi. Tekoälyn ja erityisesti koneoppimisen menetelmien nopea kehittyminen viimeisen vuosikymmenen aikana on avannut täysin uusia mahdollisuuksia myös kulttuuriperintöaineistojen käytettävyyden kehittämiseen.
Tavoitteena hankkeella on nopeuttaa arkistoissa, kirjastoissa ja museoissa käynnissä olevaa digitalisaatiota ja teknologista murrosta. Tekoäly tarjoaa valtavasti mahdollisuuksia laajojen aineistomassojen automaattiseen käsittelyyn, mutta toistaiseksi muistiorganisaatioissa on vielä vähän vaadittavaa osaamista.
Hankkeen keskeiset tavoitteet ovat:
1. Edistää digitoinnin automatisointia kehittämällä tekoälyyn perustuvia menetelmiä, joilla voidaan vähentää digitoinnissa tehtävää manuaalista työtä sekä tehostaa toimintaa.
2. Kehittää aineiston automaattista kuvailua eli metatietojen generointia tekoälyä hyödyntäen ja parantaa siten aineiston käytettävyyttä ja edistää tiedon löydettävyyttä ja hyödyntämistä
3. Edistää tekoälyyn ja koneoppimiseen perustuvien menetelmien käyttöönottoa muistiorganisaatioissa sekä edistää kehitettävien komponenttien helpompaa ja laajempaa hyödyntämistä.
Hankkeen merkittävimpänä uutuusarvona on, että hankkeessa pyritään ensimmäistä kertaa systemaattisesti viemään kehitettäviä tekoälyn komponentteja osaksi tuotantoprosesseja, siten että tekoälyyn perustuvat komponentit toteuttavat aineiston käsittelyä. Hankkeessa kehitettävistä komponenteista tuotetaan avoimesti hyödynnettäviä sovelluksia, joihin kehitetään helppokäyttöiset käyttöliittymät ja rajapinnat.
Hanke liittyy vahvasti Mikkelin Memory Campus kehittämisalustaan, joka on arkisto- ja kirjastotoimialan digitoinnin osaamis- ja palvelukeskus. Memory Campus pohjautuu Mikkeliin pitkäjänteisesti rakennettuun, valtakunnallisesti ainutlaatuiseen arkistoinnin, digitoinnin, aineistojen käytettävyyden ja tiedonhallinnan osaamiseen. Muita Memory Campuksen toimijoita hankkeeseen osallistuvien organisaatioiden lisäksi ovat muistiorganisaatiot Musiikkiarkisto, Design Arkisto, Muisti ja Kansalliskirjasto; tutkimus ja koulutus sektorilta Digitalia, MUC (Mikkelin yliopistokeskus) sekä Esedu (Etelä-Savon ammattiopisto); yrityksistä mm. Fujitsu, Rocksolid IT, Marskidata, MPY ja Naistinki. Hankkeessa hyödynnetään monipuolisesti XAMKin digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitaliassa pitkäjänteisesti tehtyä tutkimus- ja kehitystyötä. Hankkeessa jatkokehitetään ja viedään tuotantoon erilaisia aiemmin kehitettyjä ja kokeiltuja komponentteja.
Suunniteltu hanke tukee erityisesti Memory Campuksen toimijoiden piirissä uusien teknologioiden käyttöönottoa digitoinnissa sekä osaamisen kasvattamista laajemmin. Hankkeen tulokset tulevat olemaan laajasti hyödynnettävissä myös Memory Campuksen toimijoiden ulkopuolella ja hankkeen aikana niitä otetaan käyttöön mm. Kansallisarkiston massadigitoinnissa ja Elinkeinoelämän keskusarkiston Elkan digitoinnissa. Hanke vahvistaa Memory Campuksen toimijoiden asemaa digitaalisen tiedonhallinnan asiantuntijoina niin Suomessa kuin kansainvälisesti.
Hankkeen ensisijaista kohderyhmää ovat organisaatiot, jotka digitoivat ja saattavat käytettäväksi digitaalisia aineistoja sekä kehittävät digitaalisen aineiston käsittelyyn liittyviä menetelmiä. Keskeisin kohderyhmät ovat muistiorganisaatiot, kuten arkistot, kirjastot ja museot sekä erilaiset ykistyiset yritykset ja muut organisaatiot, jotka kehittävät digitointiin ja digitaaliseen aineiston käsittelyyn liittyviä palveluita. Hankkeen keskeistä kohderyhmää ovat siten Memory Campuksen toimijat.
Hankkeen tulokset hyödyttävät kaikkia organisaatioita, jotka hyötyvät aineistojensa digitoinnista. Näitä organisaatioita ovat mm. valtion virastot, kunnat, muut julkisen hallinnon organisaatiot, yksityiset yritykset ja järjestöt ja yhdistykset.
Laajemmin hanke kytkeytyy osaksi eurooppalaista Time Machine yhteistyöverkostoa, jonka tavoitteena on kehittää innovatiivisia ratkaisuja, joilla Euroopan arkistoissa, kirjastoissa ja museoissa säilytettävät kulttuuriperintöaineistot voidaan saattaa laajassa mitassa digitaaliseen muotoon.
Laajemmin hyötyjinä ovat julkisen tiedon hyödyntäjät eli kansalaiset ja tutkijat, jotka voivat käyttää ja etsiä aiempaa monipuolisemmin hallinnon julkista tietoa. Tutkijoiden kannalta tiedon löydettävyyden ja hyödynnettävyyden parantuminen tarjoaa mahdollisuuksia täysin uudenlaisille tutkimusasetelmille ja -kysymyksille. Välillisiä kohderyhmiä datan jatkohyödyntämiseen ovat alan palveluita tarjoavat yritykset.
Myönnetty EU- ja valtion rahoitus: 902 683
Toteutunut EU- ja valtion rahoitus: 797 296
Suunniteltu julkinen rahoitus yhteensä: 1 068 984
Toteutunut julkinen rahoitus yhteensä: 950 924
Maakunnat: Etelä-Savo
Seutukunnat: Mikkelin
Kunnat: Mikkeli
Jakeluosoite:
Postinumero:
Postitoimipaikka:
Suunniteltu: 4, joihin työllistyvät naiset 2
Toteutunut seurantatietojen mukaan: 0.00, joihin työllistyvät naiset 0.00
Suunniteltu: 0, joista naisten perustamia 0
Toteutunut seurantatietojen mukaan: 0.00, joista naisten perustamia 0.00
Välitön | Välillinen | |
Ekologinen kestävyys | ||
Luonnonvarojen käytön kestävyys | 0 | 5 |
Digitointi ja digitaalisten aineistojen käyttö vähentää paperiaineistojen säilytykseen ja kuljetukseen liittyvien luonnovarojen käytön tarvetta. | ||
Ilmastonmuutoksen aiheuttamien riskien vähentäminen | 0 | 5 |
Digitointi ja digitaalisten aineistojen käyttö vähentää paperiaineistojen säilytykseen ja kuljetukseen liittyvän energiankäytön tarvetta (säilytysolosuhteiden ylläpitoon vaadittava energia, kuljetuksen vaatimat polttoaineet). | ||
Kasvillisuus, eliöt ja luonnon monimuotoisuus | 0 | 0 |
Pinta- ja pohjavedet, maaperä sekä ilma (ja kasvihuonekaasujen väheneminen) | 0 | 0 |
Natura 2000 -ohjelman kohteet | 0 | 0 |
Taloudellinen kestävyys | ||
Materiaalit ja jätteet | 0 | 5 |
Aineistojen digitaalinen käsittely ja arkistointi vähentää arkistointiin liittyvien materiaalien tarvetta. | ||
Uusiutuvien energialähteiden käyttö | 0 | 0 |
Paikallisen elinkeinorakenteen kestävä kehittäminen | 8 | 7 |
Tukee Mikkelin kaupungin strategista tavoitetta kehittää Memory Campus kehittämisalustaa, luoda digitaaliseen tiedonhallintaan liittyvää osaamista ja lisätä alan työpaikkoja (erit. korkean teknologian työpaikat). | ||
Aineettomien tuotteiden ja palvelujen kehittäminen | 9 | 6 |
Kehittää digitaalisia palveluita ja mahdollisuuksia laajentaa digitaalisten palveluiden tarjontaa. Luo osaamista kehittää jatkossa digitaalisia palveluita, jotka hyödyntävät uusinta teknologiaa. | ||
Liikkuminen ja logistiikka | 4 | 5 |
Edistää digitoinnin keskittämistä kansallisesti Mikkeliin. Digitaalinen säilytys ja käyttö edistävät paperiaineistoon liittyvän logistiikan vähenemistä | ||
Sosiaalinen ja kulttuurinen kestävyys sekä yhdenvertaisuus | ||
Hyvinvoinnin edistäminen | 3 | 5 |
Hanke tukee hyvinvointia synnyttämällä uutta osaamista ja tukemalla työllisyyttä. Hanke tukee välillisesti hyvinvointia parantamalla digitaalisten aineistojen määrää ja niiden käytettävyyttä eri käyttäjäryhmille ja eri tarkoituksiin. | ||
Tasa-arvon edistäminen | 0 | 5 |
Hankkeessa huomioidaan sukupuolineutraalius ja valtavirtaistamisen periaatteet. | ||
Yhteiskunnallinen ja kulttuurinen yhdenvertaisuus | 5 | 5 |
Hanke tukee yhdenvertaisuutta edistämällä digitaalisten aineistojen saatavuutta, löydettävyyttä ja helppokäyttöisyyttä. Hankkeella edistetään, että kulttuuriperintöaineisto on helpommin saavutettavissa eri käyttäjäryhmille | ||
Kulttuuriympäristö | 8 | 8 |
Hankkeella edistetään digitaalisen kulttuuriperintöaineiston säilymistä ja sen saattamista laajemmin käyttöön eri käyttäjäryhmillle. | ||
Ympäristöosaaminen | 0 | 0 |
Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti -hankkeen (DALAI) lähtökohtana on arkistoissa meneillään olevan digitaalisen murroksen tukeminen koneoppimisteknologian avulla. Hankkeen keskeisenä kohderyhmänä ovat muistiorganisaatiot ja niille palveluja tuottavat yritykset. Tekoälyä hyödyntämällä hankkeessa tuotettiin ratkaisuja arkistoitujen asiakirja-aineistojen digitoinnin tehostamiseen ja digitoidun aineiston käytettävyyden parantamiseen. Lisäksi hankkeessa edistettiin uusien menetelmien hyödyntämistä muistiorganisaatioissa. Hankkeen tavoitteisiin edettiin viiteen työpakettiin jaetuilla toimenpiteillä. Työpaketeissa 1-3 kehitettiin tuotantovalmiita tekoälykomponentteja digitoitujen aineistojen kuvanlaadun validointiin, sisällöntunnistukseen, aineiston rakenteiden tunnistukseen sekä automaattiseen metatiedottamiseen. Työpaketissa 4 ja 5 keskityttiin yritysyhteistyöhön ja verkostomaiseen kehittämiseen sekä tulosten jakamiseen laajempaan käyttöön helppokäyttöisen käyttöliittymän avulla.
Hankkeen tuloksena syntyi vapaasti saatavilla olevat tekoälykomponentit tyhjien sivujen, skannausvirheiden (post-it-lappujen ja taittuneiden kulmien), kirjoitustyypin ja asiakirjakokonaisuuden tunnistukseen, asiakirjan segmentointiin ja automaattiseen metatiedottamiseen. Komponenttien koodit dokumentaatioineen julkaistiin osoitteessa https://github.com/DALAI-project. Lisäksi hankkeessa tutkittiin koneluettavaan muotoon muutetun konekirjoitetun tekstin (OCR) laatua asiakirja-aineistoissa (ks. Jääskeläinen, Lipsanen, Föhr, Räisänen 2023). Komponenttien kehitystyötä varten tuotettiin opetusaineistoja erilaisista arkistoaineistoista. Rakennettuja ja koulutettuja malleja testattiin, lisäkoulutettiin ja jälleen testattiin. Komponentit kiinnitettiin hankkeessa rakennettuun käyttöliittymään, joka nimettiin Arkkiiviksi (https://arkkiivi.fi/). Osa kiinnitettiin myös Kansallisarkiston massadigitoinnin tuotantoympäristöön testattaviksi ja tuotantoon. Arkkiivissa komponentteihin voi tutustua ja niitä voi testata pienillä aineistomäärillä. Komponentteja ja Arkkiivia testattiin hankepartnerien omissa testiympäristöissä sekä hankkeen ulkopuoliselle kohderyhmälle suunnatuissa avoimissa työpajoissa, joita järjestettiin etä- ja lähitapaamisina Mikkelissä ja Helsingissä. Työpajoissa komponentteja testattiin erilaisilla arkistoaineistoilla ja palautetta saatiin sekä käyttöliittymän että komponenttien kehitystyöhön. Julkaistut komponentit ovat avoimesti saatavilla, vapaasti hyödynnettävissä ja jatkokehitettävissä (MIT-lisenssi). Rajapintojen avulla komponentit voidaan asentaa organisaatioiden omiin tuotantoympäristöihin. Malleja voi muokata tai jatkokehittää kouluttamalla niitä omilla opetusaineistoilla.
Hankkeesta ja sen tuloksista tiedotettiin mm. erilaisissa arkistoalan tilaisuuksissa Suomessa ja ulkomailla sekä partnereiden omilla viestintäkanavilla. Hankkeen myötävaikutuksella syntyi mm. kaksi uutta työpaikkaa ja uusia vapaasti hyödynnettäviä tuotteita, joilla voi helpottaa arkistoaineistojen digitoinnissa kuvanlaadun tarkistusta sekä digitoitujen asiakirjojen käytettävyyttä.