Linkandmed

Veebis olevad avatud linkandmete (hüperviidete) kogumikud ja nendevahelised seosed 2011. aasta septembri seisuga

Linkandmed on Internetti lisatud andmed, mis on omavahel seostatud (tavaliselt ühesuunaliste hüperviidetega). Seostamiseks kasutatakse veebis hüperteksti edastusprotokolli, RDF- ja URI-tehnoloogiaid ning asjade kirjeldamiseks luuakse ontoloogiaid. Linkandmetevahelised seosed ei ole mõeldud inimestele lugemiseks, vaid on loodud nii, et neid oleks lihtne automaatselt arvutitega töödelda ja moodustada suuremaid andmemassiive (andmebaase), millest infot pärida.

Linkandmetes nähakse võimalikku lahendust probleemile, kuidas järjest kasvavas veebi lisatavate andmetest leida vajalikku. Pikemas vaates loodetakse, et linkandmete eduka arendamisega tekib masinloetav ja seosterohke "nutistu", mis oleks tuleviku interneti tehnoloogiate ja ka nutiseadmete alustalaks.[1][2] Linkandmete idee käis 2006. aastal esmakordselt välja veebi leiutaja Tim Berners-Lee. Enamik linkandmetega seonduvaid tehnoloogiaid on standardinud World Wide Web Consortium.

Põhireeglid

[muuda | muuda lähteteksti]

Veebi ja linkandmete termini looja Tim Berners-Lee on sõnastanud neli põhireeglit, mida peab linkandmeid luues silmas pidama:[3]

  1. Asjade tähistamiseks tuleb kasutada ühtseid infoallika indikaatoreid.
  2. Need ühtsed ressursi-indikaatorid peaks olema kujutatud HTTP-aadressidena. Nii on andmete lugejal (ükskõik, kas inimesel või arvutiprogrammil) viis neid andmeid otsida.
  3. Kui keegi ühtse ressursi-indikaatori üles otsib, siis võiks vastuses olla kasulikku infot RDF-standardiga nii, et nende andmete peale saaks SPARQL-keeles päringuid teha.
  4. Linkandmete sees tuleks viidata ka teiste linkandmete ühtsetele ressursi-indikaatorile. Nii tekib kontekst ja andmete tarbija saab kokkuvõttes rohkem infot.

Tim Berners-Lee tegi 2009. aastal TED-konverentsil ettekande linkandmetest, kus ta seletas kolme lihtsa punktiga, milles seisneb linkandmete võlu:[4]

  1. Iga kontseptuaalne asi saab omale nime, mis algab HTTPga.
  2. Kui võtta mingi objekti HTTPga algav nimi ja selle järgi seda objekti otsida [..], siis saab vastuseks palju kasulikku infot selle objekti kohta, mis võib kellelegi huvi pakkuda.
  3. Leitud info ei piirdu ainult kellegi kaalu, pikkuse ja sünniajaga, vaid see sisaldab viiteid. Iga kord, kui millelegi on viidatud, siis on seda tehtud taas kord selle teise objekti HTTP URI abil.

Avatud linkandmed

[muuda | muuda lähteteksti]

Tim Berners-Lee ise on innustanud inimesi oma linkandmeid ka avalikkusele tasuta jagama. Ta on loonud viietärnisüsteemi, et linkandmete ja ühtlasi ka avaandmete loojad saaksid hinnata oma avatud linkandmeid.[3]

* Andmed on avalikult internetis ja kaetud mõne sellise litsentsiga, mis lubab neid andmeid piiranguteta kasutada.

** Andmed on masinloetaval kujul. Näiteks pigem võiks olla hästi struktureeritud Exceli fail kui pilt.

*** Andmed on mõnes avatud vormingus, näiteks pigem CSV- või JSON-vormingus kui Excelis.

**** Kõik eelnev ja lisaks kasutatakse W3C soovitatud standardeid nagu URI, RDF ja SPARQL, et inimesed saaks loodavatele andmetele viidata.

***** Kõik eelnev ja lisaks on andmetes linke teiste inimeste andmetele, et loodavatele andmetele tekiks kontekst.

Vaatamata sellele, et termineid "avaandmed" ja "linkandmed" kasutatakse tihti vaheldumisi, ei tähenda, et üks alati ka teine oleks. Näiteks võivad andmed vastata ühe tärni nõudele, aga samas mitte vastata ühelegi neljast linkandmete põhireeglist, mis tähendaks, et tegemist on avaandmete, aga samas mitte linkandmetega. Samamoodi võivad andmed olla ideaalselt struktureeritud ja omavahel lingitud, kuid avaldatud piiratud ligipääsuga sisevõrgus, mis teeks nendest andmetest linkandmed, aga mitte avaandmed.[5]

Avatud linkandmetest räägitakse tihtipeale kui suure tulevikupotentsiaaliga teemast, milles peaks initsiatiivi näitama avalik sektor, avalikustades oma andmed hästi struktureeritud kujul nii, et erasektor neid andmeid kasutada saaks. Selles nähakse pikas plaanis ka head kokkuhoiuvõimalust avaliku ja erasektori vahelises infovahetuses.[6][7] Eesti kontekstis on teemast juttu teinud ka Riigi Infosüsteemid oma 2011/2012. aastaraamatus, mainides ära, et Eestis on küll palju andmeid avalikustatud, aga nad vastavad enamasti kõigest ühe tärni kvaliteedile.[8] Eestis on loodud eeldused, et riiklikud asutused saaksid tekitada kvaliteetsemaid avatud linkandmeid. On olemas nõuded riigiinfosüsteemide loodavate linkandmete ontoloogiatele ja juhised, kuidas oleks andmeid semantiliselt korrektne kirjeldada. Mitmesugustele riiklikele infosüsteemidele, nagu näiteks Äriregistrile, on juba loodud oma ontoloogiad.[2]

Vaatamata avatud linkandmete suurele potentsiaalile on vaja arengut mitmel suunal, et linkandmed massidesse jõuaks. Arengut on vaja andmesidevõrkude kiiruses, seadmete tarkuses, infosüsteemide koostöövõimes, teadmusvõrgustikes, semantilistes võrgustikes jne. Esmatähtis on internetis andmeid avaldavate inimeste enda initsiatiiv tekitada uusi linkandmeid.[2]

Linkandmetel põhinevad rakendused[1]

[muuda | muuda lähteteksti]

Tulenevalt sellest, et linkandmed on mõeldud eestkätt masinloetavateks, luuakse rakendusi, mis esitavad linkandmetel põhinevaid andmeid inimesele paremini arusaadaval kujul. Rakendused jagunevad kolmeks põhigrupiks: linkandmete brauserid, linkandmete otsingumootorid ja probleemispetsiifilised rakendused.

Põhiline erinevus tavaliste veebibrauserite ja linkandmete brauserite vahel on see, et viimased toovad eriliselt esile andmetevahelised seosed. Linkandmete brauser võib infot päritava objekti kohta kuvada mitmest allikast kombineeritult, samas näidates, millistest allikatest on pärit erinevad infojupid. Linkandmete brauser on näiteks Marbles.

Linkandmete otsingumootorid jagunevad arvutitele ja inimestele mõelduteks. Inimestele mõeldute puhul käib andmete pärimine samamoodi nagu näiteks Google'i või Yahoo! otsingumootori kasutamine. Inimene kirjutab otsinguväljale midagi, mille kohta ta infot soovib, ja saab nimekirja seotud vastustest. Erinevus tavaliste otsingumootoritega seisneb selles, et iga vastuse element on rangemalt struktureeritud. Linkandmete otsingumootor on näiteks Falcons. Arvutitele mõeldud linkandmete otsingumootorid põhinevad üldjuhul kokkulepitud spetsifikatsioonile vastaval rakendusliidesel, mida kolmanda osapoole loodud tarkvara saab kasutada, tehes selle abil päringuid ja saades vastuseks RDF-kujul dokumente.

Probleemispetsiifilisteks rakenduseks saab nimetada keerulisemaid rakendusi, mis eelmistesse gruppidesse ei mahu ja mis ainuüksi arvutitele mõeldud linkandmete otsingumootoritega hakkama ei saa. Üldjuhul kasutavad sellised rakendused allikatena mitmeid linkandmete kogumikke ja kombineerivad vastavalt oma vajadustele sealt saadud andmeid. Näiteks Revyu on selline keskkond, kus inimesed saavad hinnanguid anda ükskõik millele (filmid, muusika, tooted jne). Kui keegi sisestab keskkonda uue filmi, siis Revyu läheb vaatab, kas mõnes teises linkandmete kogumikus (näiteks DBPedias) on juba midagi olemas selle filmi kohta, ja kui on, siis seob need andmed (näiteks tõmbab filmi DVD kaanepildi).

Valik linkandmete kogumikke

[muuda | muuda lähteteksti]
  • DBPedia – andmemassiiv, mis koosneb Vikipeedia artiklite baasil koostatud linkandmetest. DBPediast on, nagu Vikipeediast, olemas versioonid eri keeltes. Sarnaselt Vikipeediaga on ka DBPedias enim andmeid inglise keeles. Kokku on 2014. aasta sügisese seisuga ingliskeelses DBPedias andmeid rohkem kui 4,5 miljoni asja kohta[9], millest igaüks on tähistatud unikaalse URI-ga. Nende andmetega on võimalik keerukaid SPARQL-päringuid teha.
  • WikidataDBPedia mantlipärija, mis koondab Vikipeediast ja paljudest teistest andmeallikatest pärit andmeid terviklikku ontoloogiasse.
  • GeoNames – sisaldab 2014. aasta sügisese seisuga RDF-kujul andmeid rohkem kui 10 miljoni geograafilise objekti kohta.[10]
  • Linked Movie Data Base – linkandmete kogumik, mis sisaldab andmeid filmide, näitlejate jms kohta. 2014. aasta sügisese seisuga on kogumikus avaldatud üle 6 miljoni RDF-kolmiku.[11]
  • RDF Book Mashup – linkandmete kogumik raamatute, kirjanike jms kohta.
  • Eesti Ehitisregister – üle 25 GB andmeid 31.12.2012 seisuga registrisse kantud ehitiste kohta.
  1. 1,0 1,1 Bizer, Christian; Heath, Tom; Berners-Lee, Tim (2009). "Linked Data – The Story So Far" (PDF). International Journal on Semantic Web and Information Systems. 5 (3): 1–22. DOI:10.4018/jswis.2009081901. ISSN 1552-6283. Solving Semantic Interoperability Conflicts in Cross–Border E–Government Services.
  2. 2,0 2,1 2,2 "Lingitud Eesti – lõpparuanne" (PDF). Originaali (PDF) arhiivikoopia seisuga 18. oktoober 2014. Vaadatud 13. oktoobril 2014.
  3. 3,0 3,1 Tim Berners-Lee (27. juuli 2006). "Linked Data – Design Issues". W3C.
  4. Tim Berners-Lee on the next Web
  5. Arutelu teemal, mis erisused on avaandmetel ja linkandmetel
  6. W3 välja antud informatiivne tekst avaliku sektori rollist linkandmete avalikustamisel
  7. Neelie Kroesi kõne teemal "Data is the new gold"
  8. "RISO 2011/2012. aastaraamat: Avaandmed – samm tuleviku internetti". Originaali arhiivikoopia seisuga 6. oktoober 2014. Vaadatud 5. oktoobril 2014.
  9. "DBPedia haldajate loodud tutvustav ingliskeelne lehekülg". Originaali arhiivikoopia seisuga 20. november 2010. Vaadatud 5. oktoobril 2014.
  10. GeoNames haldajate loodud tutvustav ingliskeelne lehekülg
  11. "Linked Movie Database avalik statistika". Originaali arhiivikoopia seisuga 7. oktoober 2014. Vaadatud 5. oktoobril 2014.