Tekoälytyökalut ovat rynnineet vauhdilla käyttöön työelämässä, ja myös tieteelliseen tutkimukseen tarjotaan jos jonkinlaista apuvälinettä. Tutkimuskirjallisuuden etsintään ja viittauksien arviointiin ja hallintaan oma kotiyliopistoni Turun yliopisto tarjoaa Scite_ nimistä palvelua, joka lupaa louhia viitteitä niin open access-julkaisuista kuin maksumuurin takaa. Scite_n keskeinen lisäarvo on palveluntarjoajan mukaan Smart citations -ominaisuus, joka etsii haluttuun julkaisuun tai aiheeseen liittyviä mainintoja, löytää niitä koskevat kohdat julkaisuista ja antaa arvion siitä, onko etsittyä julkaisua lainattu sen tulokset hyväksyvässä vai niitä haastavassa merkityksessä, vaiko kenties neutraalina mainintana.
Lisäksi Scite_ tarjoaa muiden AI-chatbottien tapaista käyttöliittymää (Assistant), jonka luvataan antavan tutkimukseen perustuvia ja lähdeviittein varustettuja tuloksia. Scite_väittää AI-assistenttinsa olevan vähemmän taipuvainen hallusinoimaan kuin geneeriset tekoälyt. Kuulostaa hyvältä, katsotaan miten Scite_ selviää. Kaikki testit on tehty 17.3.2025 kirjautuneena Turun yliopiston tarjoamalla lisenssillä. Käyttäjätililläni ei ollut tässä vaiheessa juurikaan hakuhistoriaa palvelussa.
Valitsin testitehtäviksi niin lähellä omia tutkimusaiheitani olevia kysymyksiä, että pystyn taatusti arvioimaan niiden oikeellisuuden. Eli testasin, miten Scite_ pärjää myöhäiskeskiajan harhaoppisuuden ja inkvisition kanssa. Annoin työkalulle kolme eri tehtävää.
1) Ensimmäinen kysymykseni assistentille oli kataareina tunnettuja keskiaikaisia harhaoppisia koskevat tieteelliset väittelyt: What are the recent scholarly debates about medieval Cathar heresy? Debattia nimittäin on siinä määrin, että piireissä puhutaan enemmän tai vähemmän leikkisästi ”uusista kataarisodista”.
Vastauksen alku on aika tavanomaisen geneeristä AI-botin vastausta, joka tavallaan osuu oikeaan mutta varsin yleisellä tasolla:
The scholarly debates surrounding the medieval Cathar heresy have evolved significantly in recent years, particularly with the emergence of deconstructionist perspectives that challenge traditional views on Catharism. The conventional understanding of Catharism as a dualistic heresy, heavily influenced by Eastern dualist movements such as Bogomilism, has come under scrutiny. Scholars within the deconstructionist camp argue that many sources substantiating this dualistic view may be forgeries created by Catholic authorities to undermine the legitimacy of dissenting groups (Czarnecki, 2023; , Czarnecki, 2021).
Huolestuttavaa ei kuitenkaan ole vastauksen sisältö, vaan AI-assistentin keräämät viittaukset, joihin se perustaa vastauksensa (näistä yllä vain muutama). Vastauksesta puuttuivat kaikki keskeiset aihepiirin julkaisut, kuten vuonna 2016 julkaistu kokoomateos Cathars in Question (ed. A. Sennis) tai debattia jatkanut Le ‘Catharisme’ en questions (J.-L.- Biget et al., 2020). Vastaus ei myöskään millään tavalla indikoi kiistan keskeisiä tutkijoita kuten R. I. Moore, Mark G. Pegg, Uwe Brunn, Claire Taylor tai Pete Biller. Vastauksen perusteena näyttää olevan suhteellisen sattumanvarainen joukko avoimia julkaisuja. Vaikka vastaus ei sinänsä ole väärä, se on epärelevantti. Tämä on iso ongelma tutkimustiedon hakuun tarkoitetulle työkalulle.
2) Kokeilin seuraavaksi, löytääkö Scite_ mainintoja alallani suhteellisen laajasti viitatusta julkaisusta, eli hain suoraan julkaisun nimellä siihen tehtyjä viittauksia. Tehtävä oli tarkoituksella vähän haastava, sillä valitsin siihen vuonna 2011 ilmestyneen monografian, Lucy Sackvillen Heresy and Heretics in the Thirteenth Century: the Textual Representations. Se on maksumuurin takana, mutta saatavilla ainakin CambridgeCoresta. Lisäksi siihen on melkein 15 vuoden aikana viitattu lukuisissa avoimesti saatavilla olevissa julkaisuissa, joten jos Scite_ on tehtäviensä tasalla, mainintoja pitäisi löytyä.
Tulos järkytti: Scite_ löytää yhteensä 16 viittausta, jotka jakaantuvat kahdelle eri nimekkeelle: jostain syystä Sackvillen kirjalle löytyy myös julkaisuvuosi 2009.

Määrä ei millään tavalla vastaa todellisuutta. Google Scholar antaa teokseen 122 viitettä, joka sekin on todennäköisesti reippaasti alakanttiin, sillä myös Scholarilla on välillä vaikeuksia poimia viittauksia monografioista tai kirjojen luvuista. En suoraan sanoen odottanut, että myöskään Scite_ löytäisi monografioiden viittauksia kauhean tehokkaasti, mutta näin vaatimaton tulos tarkoittaa, että se alisuoriutuu myös verkossa helposti saatavilla olevissa humanistisissa artikkeleissa.
3) Annoin Scite_n assistentille vielä hyvin tarkkaan rajatun kysymyksen: Who is the author of the anti-Waldensian treatise Refutatio errorum? Tiedän vastauksen, koska ratkaisin ongelman aikanaan itse. Tiedän myös, että vastaus on helposti löytyvillä HUP:n julkaisemassa ja hakukoneiden varsin hyvin löytämässä OA-julkaisussa. Tehtävä on hyvin spesifi, eikä kysymystä käsitellä kovin monessa julkaisussa, mutta toisaalta tehtävänantona on yksiselitteinen kysymys, johon vastaus on saatavilla.
Scite_n assistentin vastaus alkaa näin:
The treatise “Refutatio errorum,” typically attributed to the theologian and ecclesiastical figure Peter of Valencia, is an essential document in the context of anti-Waldensian literature. Peter of Valencia is recognized for his vigorous defense against the Waldensians, a Christian sect criticized for its dissenting interpretations of faith and practice during the medieval period.
Ja perustuu seuraaviin julkaisuihin (muotoilut Scite_n mukaan:
Hoose, A. (2014). durán of huesca (c. 1160–1230): a waldensian seeking a remedy to heresy. Journal of Religious History, 38(2), 173-189. https://doi.org/10.1111/j.1467-9809.2013.01261.x
Kras, P. (2020). The system of the inquisition in medieval europe.. https://doi.org/10.3726/b17382
Modestin, G. (2013). The anti-waldensian treatise cum dormirent homines: historical context, polemical strategy, and manuscript tradition., 211-229. https://doi.org/10.1484/m.mcs-eb.1.101768
Välimäki, R. (2018). Transfers of anti-waldensian material from a polemical treatise to a didactic text. Medieval Worlds, medieval worlds(Volume 7. 2018), 153-169. https://doi.org/10.1553/medievalworlds_no7_2018s153
Julkaisut ovat ihan oikeita, mutta ne eivät estä AI-assistenttia hallusinoimasta. Peter of Valencia -nimistä kirjoittajaa ei mainita missään näissä julkaisuista, eikä sen niminen henkilö ole keskiajalla kirjoittanut harhaoppisuudesta. Kyse on täysin tekoälyn hourimasta kirjoittajasta, eli valitettavasti myös Scite_n AI-botti näyttää olevan taipuvainen hallusinoimaan vastauksen, jos se ei löydä sitä suoraan käyttämistään julkaisuista. Sinänsä assistentti oli jäljillä, sillä se kaivoi tekstin oikean tekijän eli inkvisiittori Petrus Zwickerin kirjoituksia koskevia julkaisuja, ja hääri asian liepeillä.
Jännittävästi pelkästään kysymyksen esittäminen uudelleen tuotti oikean vastauksen:
The anti-Waldensian treatise “Refutatio errorum” has been attributed to the inquisitor Petrus Zwicker. This attribution is supported by qualitative analysis and computational methods employed in stylometry. In their investigation, Välimäki et al. analyze the textual features of various versions of “Refutatio errorum” and provide substantial evidence that corroborates the authorship of Zwicker, illustrating that this treatise is a significant addition to the corpus of anti-heretical literature from the late medieval period (Välimäki et al., 2020).
Oikea tai väärä vastaus ei tässä ole olennaista, vaan tämän(kin) generatiivisen tekoälysovelluksen arvaamattomuus ja sattumanvaraisuus. Scite_n rakentaneen yrityksen väitteistä huolimatta malli lähtee hallusinoimaan vaikka perustaakin vastauksen tutkimukseen. Tämä tekee siitä tavallaan yleisiä tekoälychatteja vaarallisemman: vastaus näyttää vakuuttavalta ja lähdeviitteet tukevat sitä. Tutkittuun tietoon perustuva korpus ei kuitenkaan takaa generatiivisen tekoälyn vastausten oikeellisuutta.
Pari loppuhuomiota: tästä testistä ei voi tehdä mitään yleisiä johtopäätöksiä Scite_n toimivuudesta. Se on epäilemättä tehokas tieteenaloilla ja kysymyksissä, joissa julkaisut ovat artikkelimuotoisia ja massaa on paljon, eli esimerkiksi luonnontieteissä.
Keskiajan historian tutkimuksessa rajoitteet tulivat nopeasti vastaan: malli ei löytänyt relevantteja julkaisuja ja spesifissä kysymyksessä tekoälyassistentti lähti hallusinoimaan. Sen käytössä esimerkiksi opinnäytteiden kirjallisuuskatsauksien laadinnassa tulee suhtautua varauksella. Kokeilla kannattaa, löysin itse sen avulla muutaman kiinnostavan puolalaisen julkaisun, joita en ollut aiemmin huomannut.
Jollain tavalla malli myös on tasa-arvoistava ja kuvaa julkaisutoiminnan käynnissä olevaa murrosta: Scite_löytää paremmin pienten itäeurooppalaisten yliopistojen avointen repositorioiden julkaisuja kuin isojen amerikkalaisten tai brittiläisten kustantajien maksumuurin takana olevia artikkeleita tai monografioita. Tämä havainto sopii suoraan avoimen tieteen politiikan ylistyspuheeseen, mutta lisään siihen kitkerän sivumaun: tietoa hakevan tutkijan tai opiskelijan kannalta tulos on pahasti puutteellinen, jos tärkeimmät ja oivaltavimmat julkaisut puuttuvat.