Vikipeedia andmemeres: mida ja millal loetakse?

Kuupäev:

Ivo Kruusamägi

Jaanuaris pälvis Eesti meedia tähelepanu probleem võimalikust infosõjast vabas entsüklopeedias. Oluliste ressursside pärast on ikka lahinguid peetud ja nii on sobilik meenutada kahe kümnendi eest esile kerkinud ütlust „andmed on uus nafta“. Eriti nüüd, kus tehisarubuum on selle teema eriti kuumaks kütnud. Kust aga kaevandada seda digiajastu energiaallikat ja mille kütuseks seda tarvitatakse?

Kuigi andmetest räägitakse palju, mõeldakse vähem nende osale tähelepanumajanduses. Andmed ei räägi ainult sellest, mis miski on, vaid ka selle tähtsusest. Ent see, mille vastu huvi tuntakse, ei ole kättesaadav mitte ainult hargmaistele korporatsioonidele või muidu suurtele ettevõtetele, vaid ka kõik inimesed võivad hõlpsasti leida üllatavalt palju infot. Miks mitte vaadata seda Vikipeedia näitel, sest sealset teavet saab vabalt kasutada?

2025. aastal käisid inimesed eestikeelse Vikipeedia lehekülgedel üle 112 miljonil korral, mis maalib üsna hea pildi inimeste huvidest. Leedukeelne versioon köitis samal aastal ligi 103 miljonit kasutajat ja lätikeelne 58 miljonit. Võrukeelne entsüklopeedia pidi leppima aga kahe miljoni vaatamisega. Kui minna raskekaallaste juurde, siis ingliskeelne Vikipeedia korjas ligi 235 miljonit klikki päevas ehk aasta peale jagades tuli kokku 85,7 miljardit kasutuskorda. Siit saab tõepoolest välja lugeda suundumusi.

Eestikeelse Vikipeedia trükiversioon tuleks üle 150 köite ning kaaluks ligi 200 kg. See näitab ilmekalt, miks tasub seda kaasas kanda pigem digitaalselt. Digimaailma ei võimalda mitte ainult otsitavalt kiiremini leida, vaid annab ka palju täpsema ülevaate sellest, mille vastu huvi tuntakse. Foto: IVO KRUUSAMÄGI / WIKIPEDIA

Mille vastu huvi tuntakse?

Vikipeedia ingliskeelse versiooni huvipakkuvamad artiklid olid 2025. aastal „Deaths in 2025“ (49,5 mln vaatamist), „Charlie Kirk“ (43,2 mln), „ChatGPT“ (42,7 mln), „Ed Gein“ (32,8 mln), „Donald Trump“ (27,1 mln), „Zohran Mamdani“ (21,7 mln) ja „Elon Musk“ (21,2 mln). Nii saab lugemisstatistika põhjal aimu, mis oli ühes keeleruumis vaadeldaval ajal parajasti päevakajaline, kes olid need inimesed, sündmused või kultuuriteosed. Seejuures tõusevad inimesed sageli tugevalt esile surma järel (nagu Charlie Kirk, Ozzy Osbourne, Rob Reiner ja Diane Keaton) või olukorras, kus nende tegevust on kajastatud meedias (nagu Trump, Mamdani ja Musk) või meelelahutuses (näiteks Ed Gein). Otsituimate kultuuriteoste edetabelit juhtisid Hollywoodi filmid „Sinners“ (19 mln) ja „Superman“ (17,5 mln), neile järgnes telesari „Severance“ (14,4 mln) ning India film „Dhurandhar“ (13,2 mln).

Siinset lugejat võib rohkem huvitada see, mida otsiti eestikeelsest Vikipeediast. Seejuures paistab paremini silma üldine dünaamika, kus stabiilselt vaadatud lehed vahelduvad uustulnukatega. Tavapäraselt on esikohal artikkel „Eesti“, aga sooja vastuvõtu on saanud ka „Keemiliste elementide loend“ (3. koht), „Sodiaagimärk“ (4.) ja „Eesti kirjanike loend“ (5.). Konkurentsitult tagaotsituim inimene oli sedapuhku Tommy Cash (2.), kellele järgnesid Oleg Sõnajalg (8.), Arvo Pärt (11.), Priit Jaagant (13.), Arnold Rüütel (18.) ja Diana Klas (19.). Meediamaastiku silmapaistvaimad tähed olid aga traditsiooniliselt „Kättemaksukontor“ (25.), „Õnne 13“ (33.) ja „Kalevipoeg“ (34.), millest viimane sobitub kenasti kokku raamatuaastaga. Üldiselt tuleb artikleid kirjandusloomest edetabelis harva ette, kuid XXVIII üldlaulupeo tõttu jõudis Juhan Liivi luuletus „Ta lendab mesipuu poole“ 110. kohale.

Lühemas ajaskaalas on loetavuse esirinnas palju parajasti populaarseid teemasid. Ingliskeelses Vikipeedias olid jaanuari loetuimad artiklid „1989 Tiananmen Square protests and massacre“ ja „Nicolás Maduro“ ning veebruaris „Jeffrey Epstein“ ja „Epstein files“, eestikeelses aga jaanuaris „Gröönimaa“ ja „Venezuela“ ning veebruaris „2026. aasta taliolümpiamängud“ ja „Vanilla Ninja“. Kui vaatame aga naabreid, siis näiteks veebruaris otsisid lätlased, mida teab Vikipeedia jäähokist 2026. aasta taliolümpiamängudel, ning soomlased uurisid Norra imemehe Johannes Høsflot Klæbo kohta ning tahtsid lugeda Jeffrey Epsteinist. Epstein oli kõige otsitum ka Leedus, Rootsis ja Venemaal.

Ei pea aga jääma vaid edetabelite kütkeisse, sest uurida saab ka konkreetseid teemasid ja nende nähtavust. Nii võib tähelepanu köita asjaolu, et artikkel Eestist on siinse kirjutise koostamise ajal olemas 290 keeles ning neid lehekülgi vaadati eelmisel aastal kõigis keeleversioonides ligi 5,38 miljonit korda. Võrdluseks leiab Läti kohta andmeid 274 keeles ning sellle kohta otsiti üllataval kombel teavet peaaegu samavõrd ehk ligi 5,38 miljonil korral. 285 artiklit Leedust korjasid aga seevastu 5,87 miljonit vaatamist, mida Baltikumi suurima riigi kohta polegi ehk ülearu palju.

Tulevikusuundumused

Vikipeedia kasutajate arv püsib stabiilne, kuid jõulist kasvu näitab automatiseeritud päringute arv. Inimesed võisid möödunud aastal silmitseda eestikeelset Vikipeediat 112,95 miljonil korral, kuid selle kõrval tegid 129 miljonit külastust ka veebiämblikud ja 54 miljonit vaatamist saab kirjutada teiste automatiseeritud päringute arvele. Seda enam, et kui tavaliselt on eestikeelset veebientsüklopeediat kasutatud kuu jooksul 1,2–1,6 miljonist seadmest, siis 2026. aasta jaanuaris oli neid seadmeid millegipärast juba 10,6 miljonit.

Tekstiga on võrdlemisi lihtne, sest see ei ole eriti mahukas. Suurem katsumus on meediasisu ja seda materjali muidugi jagub: kõigi Vikipeedia keeleversioonide ja teiste Wikimedia projektide ühine meediandmebaas Wikimedia Commons sisaldab üle 136 miljoni faili. Iseäranis 2024. aastast on aga sellega seotud veebiliiklus väga kiiresti tihenenud, milles ei ole põhjust kahtlustada mitte inimeste mitmekordistunud teadlikkust ja huvi seal leiduva audiovisuaalsisu vastu, vaid automatiseeritud andmekaevet, mida võib küllap seostada AI-lahendustega.

Küsimus pole otseselt failide arvus ega nende mahus, Commonsi meediasisu pole veel ületanud isegi 1000 TB piiri. Raskus seisneb eelkõige suure lugejate hulga teenindamises kõigis maailma nurkades, sest keegi ei taha oodata poolt sekundit, et oma päringule vastust saada. Samu lehekülgi on vaja näidata kümneid, vahel isegi miljoneid kordi ning need võivad ajas muutuda. Selleks et ooteaega lühendada, on eri kontinentidel üles seatud puhverservereid, mis andmete teekonda lühendab ja päringutele vastamist kiirendab. Kui hoida populaarne sisu serveri vahemälus, aitab see vältida iga kord uut andmepäringut samalt lehelt.

Veebiämblikud ei käitu aga inimeste kombel ja tunnevad huvi kõige vastu. Selle tõttu tuleb agaralt ette näidata ka neid lehekülgi, mida muidu oleks tarvis väga harva eksponeerida. See tekitab serveritele suurel hulgal lisatööd. Nii märkis 2025. aastal Vikipeedia servereid haldav Wikimedia Foundation, et kuigi liiklusest kolmandik pärineb veebiämblikelt, annab nende programmijuppide tegevus kaks kolmandikku serverite töökoormusest.

Seesugune veebiinfrastruktuuri koormamine on põhjus, miks on Wikimedia Foundation viimasel ajal sõlminud ettevõtetega kokkuleppeid, kus mõningase raha eest jagatakse vikiprojektide sisu. Sisu on küll ka muidu kõigile kättesaadav, aga kui panna vähemalt osa automaatpäringuid eraldi torujuhtme külge, vabaneb ressurssi tavakasutajate teenindamiseks ning senisest lihtsama ligipääsu eest ettevõtetele saab hulgiteenuse kasutajatelt natukenegi raha küsida. Praktikas katab see küll ainult murdosa kiirelt kasvavast infrastruktuurikulust, aga põhieesmärk on vähendada tööhäireid, mis võivad kergesti tekkida, kui juhuslikul ajal saabub ootamatult suur hulk päringuid.

Ilmneb, et entsüklopeediat ei loe ainult inimesed ning AI-lahenduste treenimise ja tarvitusega seotud nõudluse kasv riistvara ja energia järele ei piirdu üksnes tehisaru jooksutavate ettevõtetega. Veebientsüklopeediast ei saa uurida mitte ainult sealseid artikleid, vaid ka peaaegu reaalajas jälgida inimeste huvide muutumist. Kus on, sinna tuleb juurde, ja ühed andmed toodavad aina teisi. Kui naftat jääb tasapisi vähemaks, siis andmete puhul seda karta pole. Need ähvardavad üleujutusega, ilma et peaksid ennast selleks enne süsihappegaasiks muundama ja aeglaselt liustike sulatamisse panustama. •

See ruutkood viib Vikipeedia statistikalehele:

Ivo Kruusamägi (1988) on vikipedist.


Artikkel on ilmunud Horisondi 2026. aasta teises numbris.

Jagan artiklit

Liitu uudiskirjaga

- Saadame sulle uudiseid Loodusajakirja värskete väljaannete ja muude olulisemate teemade kohta

Viimased artiklid

Teised artiklid

Narva häbiposti minevik ja olevik

Ilja Davõdov Häbipostidel ehk kaakidel oli Euroopa linnades mitu otstarvet...

Kas seni teadmata kalmistu Viljandi kesk- ja varauusaegse linna serval?

Martin Malve, Arvi Haak Viljandi on aastate jooksul pakkunud osteoarheoloogidele...

Hingelämb

Ken Kalling 1879. aastal kirjeldas Kreutzwald tõbe nimega „madalad-rinnad“, mida...