tirsdag 27. september 2011

On being the same

Live-blogginga frå UDC-seminaret i Haag forrige veke ytte ikkje foredragshaldarane full rett, og særleg gjaldt det "keynote speaker" Patrick Hayes som mellom anna har vore aktiv medlem i W3C sine arbeidsgrupper for semantisk web (RDF, OWL, SPARQL).

Tittelen på Hayes' foredrag var "On being the same. Why something so simple is so hard." Det som er så vanskeleg er altså å få fram kva som er likt (sameAs), vel å merka på datamaskin-vis.

Semantisk web og Linked Data
Den semantiske web-en og framveksten av lenka data ('Linked Data') produserer hundrevis av millionar triplar/triplettar ('triples') skrivne i eit nokså enkelt språk av eit utal ulike forfattarar/programmerarar. Ikkje rart då at det blir ein del inkonsekvensar i dette materialet.

Den vanlegaste inkonsekvensen, eller feilen, er påstanden om at to namn eller beskrivelsar refererer til den same tingen, når dei faktisk er nokså like, men ikkje identiske. Den verste inkonsekvensen er når ein ting blir forveksla med beskrivelsen av tingen (use/mention confusion). Bakgrunnen for denne forvirringa er at ein slik "skjødeslaus" omgang med ting og beskrivelsar er heilt vanleg i daglegtalen vår, men katastrofal i formell logisk samanheng.

Semantisk web og logikk
Semantisk web kviler på logikk, ein slags nedskalert versjon av (moderne) logikk. Sentralt i logikken er individuelle einingar ("individual particulars"), og ei mengde av desse, dvs. det matematiske/logiske 'set'-begrepet. "Individuelle einingar" høyrest ut som smør på flesk, men understrekar at det er heilt enkeltståande objekt det er snakk om.

Ogdens triangel
"Alt" kan vera 'individual particular', dei einaste krava er at dei må vera unike og distinkte. Logiske namn refererer til individuelle einingar. Det er referenten namnet peikar på som avgjer om utsagn er sanne eller ikkje. Her er det greitt å minna om det semiotiske triangelet som skil mellom namn (term, label), referent ('individual particular') og begrep (konsept):

Figur 1: Det semiotiske triangelet

Og når er to ting ('individual particulars') like? ALDRI!
Det er her det ofte blir feil. Til og med OWL-ontologien rotar dette til (owl.owl):


<rdf:Property rdf:about="&owl;sameAs">
<rdfs:comment>The prpoerty that determines that two given individuals are equal.</rdfs:comment>
<rdfs:domain rdf:resource="&owl;Thing"/>
<rdfs:isDefinedBy rdf:resource="&owl;"/>
<rdfs:label>sameAs</rdfs:label>
<rdfs:range rdf:resource="&owl;Thing"/>
<rdf:Property>


For at A skal vera lik B, må både A og B (namn) peika på same referenten:


Figur 2: Logisk lik ('equal')


Denne 'sameAs'-situasjonen er derimot ein annan, og det er som regel denne me meiner når me brukar 'sameAs':


Figur 3: Logisk ikkje lik ('not equal')
I det siste tilfellet er det to (ulike) ting med ein likskap ("sameness relationship"), men merk at dei ikkje er like!

  • Det er referenten til eit namn som avgjer sanninga av utsagn om namnet ("Truth depends on reference, and nothing else").
  • A sameAs B er sann når referenten til 'A' er den same som referenten til 'B'
Viss det er eit einaste utsagn om A som ikkje også er sant for B, så er ikkje A sameAs B.

Er'e så nøye'a?
Er ikkje dette berre pirk då? 
Logikk er veldig romsleg når det gjeld kva som kan kallast individ ('individual'). Men når individ blir omtalte logisk, er det viktig med eit skarpast muleg skilje mellom dei. 


I den verkelege verda omgir me oss med mange ulike begrep som alle korresponderer med den same verkeleg tingen: Paris kan vera eit begrep både for byen slik den er akkurat no, det kan vera det historiske Paris, den administrative hovudstaden, kunstnarbyen Paris osv. osv. Det er viktig å skilja desse begrepa logisk, sjølv om dei alle på ein måte er "same tingen", i meir enn den forstanden at dei har det same namnet.


'sameAs' er for kraftig
Påstanden 'sameAs', henta frå OWL, er no det vanlegaste limet mellom ulike lenka data-sett, for å seia at "ting er like". Som Hayes har vist, er det ikkje fullt så enkelt. To ting ('individual particulars') kan aldri vera like, men det kan vera stor grad av likskap mellom dei ('sameness relationship'). 'sameAs' er difor vorte eit litt farleg våpen logisk sett.

Guus Schreiber, som også heldt eit interessant foredrag, var inne på det same. Han peika på "ulykka" ved at SKOS-uttrykk som

skos:closeMatch
skos:exactMatch
skos:broadMatch
skos:narrowMatch
skos:relatedMatch

kom så seint på bana og at desse uttrykka får fram nyansane på ein mykje betre måte enn den bastande 'sameAs'.

Ingen kommentarer: