Harvardin yliopisto julkaisee suuren ja monipuolisen AI-koulutusdatan tukien tasapuolista pääsyä huippuluokan sisältöön yhdessä OpenAI:n ja Microsoftin kanssa.
Tärkeimmät havainnot
- Harvardin uusi datasetti sisältää lähes miljoona julkista kirjaa, jotka ovat käytettävissä AI-työkalujen kouluttamiseen.
- Datan rahoitus tulee muun muassa Microsoftilta ja OpenAI:lta, korostaen yhteistyötä teollisuuden ja akateemisen maailman välillä.
- Datasetti kattaa laajan valikoiman genrejä, kieliä ja aikakausia, tarjoten ainutlaatuisen monimuotoisen lähestymistavan tekoälyn koulutusmateriaaleihin.
- Projekti hyödyntää Googlen aikaisempia skannauksia ja pyrkii tarjoamaan aineistoa ilman tekijänoikeusesteitä.
- Harvardin aloite pyrkii tukemaan pienempiä AI-toimijoita ja yksittäisiä tutkijoita tarjoamalla heille pääsyn laadukkaaseen dataan, joka on yleensä suurten teknologiayritysten hallussa.

Harvardin yliopisto on ilmoittanut julkaisevansa korkean laadun datasetin, joka sisältää lähes miljoona julkista kirjaa. Tämä datasetti on kaikkien käytettävissä suurten kielimallien ja muiden tekoälytyökalujen kouluttamiseen. Harvardin uusi Institutional Data Initiative -aloite on luonut datasetin ja saanut rahoitusta sekä Microsoftilta että OpenAI:lta. Kirjat on skannattu osaksi Google Books -projektia, ja ne eivät enää ole tekijänoikeuksien alaisia.
Institutional Data Initiativeen kuuluva tietokanta on noin viisi kertaa laajempi kuin kuuluisa Books3 datasetti, jota on käytetty AI-mallien, kuten Metan Llama, koulutukseen. Toinen ero on se, että kyseinen tietokanta kattaa useita genrejä, kieliä ja aikakausia, kuten William Shakespearen, Charles Dickensin ja Dante Alighierin klassikot. Mukana on myös harvinaisia tšekkiläisiä matematiikan oppikirjoja ja walesilaisia taskusanakirjoja. Hankkeen johtaja Greg Leppert kuvailee projektia pyrkimyksenä “tasoittaa pelikenttää”, jotta tavallisilla ihmisillä, pienillä AI-toimijoilla ja yksittäisillä tutkijoilla on pääsy samanlaisiin huolellisesti valikoituihin sisältövarantoihin, joita yleensä vain suuret teknologiayritykset voivat koota.
Yritysten ja yhteisöjen tuki
Microsoftin varatoimitusjohtaja ja teollis- ja tekijänoikeuspäällikkö Burton Davis korostaa, että yrityksen tuki projektille on linjassa sen laajempien uskomusten kanssa liittyen “avoimien datakantojen” arvoon AI-startupien käytössä, ja sen pitäisi olla “julkisen edun mukaisesti hallittuja”. Samaan aikaan OpenAI:n pääjohtaja Tom Rubin ilmaisi yhtiönsä ilon tukea hanketta.
- Tämä panostus julkisiin aineistoihin tulee aikana, jolloin tekoälyn koulutusdataan liittyvät oikeudenkäynnit nostavat esiin kysymyksiä tekoälytyökalujen rakennustavasta.
- Jos yritykset menestyvät näissä oikeusjutuissa, he voivat jatkaa internetin skannausta ilman lisenssisopimuksia tekijänoikeuden haltijoiden kanssa.
- Mikäli uudet projektit, kuten Harvardin tietokanta, etenevät edelleen, ne viittaavat julkiseen dataan kohdistuvaan nälkään.
Kansainväliset julkiset dataprojektit
Harvardin Institutional Data Initiative (IDI) tekee yhteistyötä Bostonin julkisen kirjaston kanssa skannatakseen miljoonia artikkeleita eri sanomalehdistä, jotka ovat nyt julkisia. Tietokannan tarkka julkaisumuoto on vielä auki, mutta keskusteluja Googlen kanssa käydään. Googlen kansainvälisten asioiden johtaja Kent Walker totesi yhtiön olevan ylpeä tukiessaan projektia.
Erilaisten projektien, startupien ja aloitteiden joukkoon liittyvä IDI pyrkii tarjoamaan suuria ja laadukkaita AI-koulutusmateriaaleja ilman tekijänoikeusongelmia. Yritykset, kuten Calliope Networks ja ProRata, tarjoavat lisenssejä ja hallinnoivat korvausjärjestelmiä tekijöille, jotka tarjoavat dataa AI-koulutukseen.
Tämän lisäksi, ranskalaiseen AI-startupiin Pleias liittynyt Common Corpus sisältää 3-4 miljoonaa kirjaa ja aikakauslehtikokoelmaa ja rohkenee olla ensimmäinen EU:n AI-lainsäädännön mukaiseksi täysin avoimeksi tietokannaksi koulutettu malli. Uuden pelinavauksen tekee myös tekoälyn startup Spawning, joka on kesällä julkaissut Source.Plus-nimisen julkisen kuvadatan.


































