fredag 18. april 2008

Genialt!

Av og til er det nokon som klarer å snu eit samfunns-problem til samfunnsnytte. Verifiseringssystemet CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart) fungerer på ein slik måte. Det blir brukt til den velkjende verifiseringa med å skriva inn ein tekst som blir presentert grafisk, for å hindra automatisk tilgang til tenester.

reCAPTCHA er eit prosjekt som hentar tekstane som blir fordreid grafisk, frå gamle bøker. Brukarane som blir bedne om verifisering av teksten bidreg dermed direkte til digitalisering av bøker. Enkelt og genialt. Neste gang du har bruk for ei verifiseringsteneste bør du altså bruka CAPTCHA.

fredag 11. april 2008

iTunes endeleg frigjort!

Stor takk til Jon Lech Johansen, a.k.a DVD-Jon, som har snekra saman programmet DoubleTwist for mellom anna å konvertera Apples DRM-baserte AAC filsystem til MP3. Problemet med iTunes, eit elles genialt konsept, har vore låsinga mellom musikkbiblioteket og Apples iPod-format.

Eg ønskjer å lasta musikken frå iTunes, lovleg kjøpt, over på mp3-spelaren min. Det skulle berre mangla, men det har ikkje vore lett. For å få det til, har eg først måtta brenna ein cd med dei låtane eg vil overføra, og så overføra desse til mp3-spelaren.

Men Jon har endra dette; DoubleTwist "frigjer" iTunes-biblioteket mitt slik at eg kan synkroniser mot mp3-spelaren min. DoubleTwist gjer rett og slett mp3-spelaren din like anvendeleg som ein iPod, om du frå før brukar iTunes.

søndag 6. april 2008

What's wrong with Topic Maps?

This might seem like a strange question given the recently succesful conference Topic Maps 2008 and the general embracement of the technology in Norway. The underlying worries are tied to the latter: will TM remain a Norwegian speciality or will it get more recognition international also? This is therefore a follow-up of the panel dicussion closing the conference.

First I have to state my own relation to TM. I am by no means an expert of TM - I will caracterise myself as an advanced user. I first learned about TM in 2001 when I invited Lars Marius Garshol to talk about it at our annual IT conference IT-forum. I was immediately attracted to the idea but first in 2004 I was able to work with TM on a project base. I have found TM to be especially useful as a pedagogical tool for describing and explaining information structures.

TAO and portals
But why hasn't TM caught the same attention outside Norway and what can be done to help that? In Norway the adoption of TM has been particularly in the public sector as a framework for building portals. TM suits the portal metaphor very good and it is intuitively conceived as the "right" foundation for building semantically strong portals.

In his closing note, Steve Pepper seemed to be uncomfortable with the fact that TM is first and foremost used as a portal platform. His reason for doing so is that TM is so much more than portals, which he describes is the TAO (topics, associations and occerences) part of TM. I have also heared this "concern" been raised by other TM people. I think this is the wrong strategy: TM should be pushed as a portal framework with no concerns - portals are the killer application for Topic Maps.

Lightweight, open tools
At the conference I raised the question of lowering the barriers for using TM. Maybe the question was a bit confusing - the answers partly indicated that. So I will try to clear up a few things (around here :-). I think there is a need for easier, more accessable tools both for developers and end users. I will start with the developers.

In order to give TM a real push forward I think the TM community should join efforts to develop open source TM engine(s), modelling tools and CMS's. I know Bouvet has developed an OSS TM engine (and CMS) called ZTM, but they have been very reluctant to market it, at least after my opinion. I don't know the ZTM software so I don't know if it is the right piece of software to build on.

In addition to an OSS engine there is also a need for a simple, visually enhanced modelling tool. This is by no means an easy task but I think it would do very much to boost the interest for TM. A part of this effort could also be to provide ready-made ontologies easy to adopt for others. As a matter of fact we plan to do this with our own ontology (underlying www.vestforsk.no) in a more formal way by handing it over to Abelia, our own employers organisation. It can also be done in a very simple and straight forward method by including a link to an xtm file on the homepage.

Finally there is a need for open source CMS's with TM support. This is probably an easier task, and some initiatives have already been done. I think it would be a very good move to build TM support for the most popular OSS CMS's, like Drupal, Plone, Joomla, DotNetNuke - just to name a few.

Web 2.0 and end users
Steve Pepper mentioned adoption to the web 2.0 movement as an untapped potential for TM. I definitely think he is right, but there is a need for initiatives in order to get going. I think examples like Freebase, as I have mentioned in another blog post, can serve as a good example. This will provide users with a minimal formal ontology as a starting point onto which can be built whatever the users have in mind.

Other use cases can be TM as a blog supporting tool to have richer blogs and support findability.

Marketing
David Weinberger's point that Topic Maps are not maps and as such is vulnerable to misunderstandings is real. I have been met with questions like "how can this GIS system be used?" more than once.

David used a US company specialising in tools for faceted classification as an example. They don't market their product as faceted classification but as guided navigation. He also pointed out that the name of the standard and the marketing name of course doesn't have to be the same.

Merging
Some word on merging as well, as Steve pointed out represents a huge possibility in TM, but as of now is almost unused. It is quite a paradox having all these semantically rich TM-based public portals with none of them speaking to each other. They are indeed semantically rich islands.

The quest for a good, scalable method for distributing and using PSIs is important. Finding a clever method for handling PSIs is crucial, but I think even more important are the organisational aspects of this challenge. I think these aspects have been greatly underestimated. Who is going to be responsible for a PSI? Why should it work in TM/on the web when it doesn't even work in real life? Maybe the solution is the twist Stian Danenbarger gave to David Weinbergers famous quotation small pieces meaningfully joined. That is, the ambitions must be scaled down quite a bit.

Irrespective of the above; better working examples of useful merging of TMs are highly sought after (italian operas merged with country codes just isn't relevant enough).

Finally, to answer my initial question: Nothing's wrong with TM but it does not get the recognition it deserves!

fredag 4. april 2008

Topic Maps 2008 - dag 2






David Weinberger: Everything is Miscellaneous
Tittelen på foredraget er det same som den siste boka hans. Han er nok endå meir kjendt for boka The Cluetrain Manifesto.

Han er litt ueinig i Alex Wright i The Web That Wasn't fordi ein del av dei tinga som ikkje vart ein del av web'en, ville ha føresett sentralisert kontroll. Det ville ha brote med det viktige end-to-end-designet av Internett. Må laga eit Internett som er så enkelt at det faktisk er tomt inni! Det er ein føresetnad for innovasjon og fridom. Det er f.eks. ei dårleg ide å ha typed links, altså lenker med semantisk innhald, fordi det ville ha fjerna det enkle og fleksible ved web'en.

Internett gir oss innovasjon, fridom og overflod! Overfloda gjeld både det dårlege og det gode - det utruleg mykje dårleg på nettet, men det er også utruleg mykje bra. Overfloda av det som er bra, representerer også ei utfordring: information overload. Denne overfloda bryt med gamle måtar å organisera informasjon på - den gamle måten skalerer rett og slett ikkje til nettet sitt volum. Som eksempel på den gamle måten, brukar Weinberger Deweys desimalsystem, det rådande klassifiseringssystemet i bibliotekssektoren.

Eit hovudproblem med Deweys system, og andre liknande, er at all historie viser at me blir aldri einige om korleis verda ser ut! Då må me heller ikkje prøva på det. Karakteristisk for vestleg tenking er at det finst eit organiserande prinsipp, eit hierarkisk system, som gir ting meining. Og den einaste meininga. Det stammar frå den måten vi organiserer livet vårt kvar dag - vi må heile tida ta binære avgjerder: skal denne tingen i denne haugen eller i den andre (eksempel med klesvask!).

Første ordens organisering er å organisera ting etter likskap og ulikskap. Den andre ordens organisering er å trekka ut metadata og organisera desse. Den tredje ordenen skjer på grunn av digitaliseringa. Karakteristisk for utviklinga mot den tredje ordenen er at uorden (messiness) er eit poeng i seg sjølv og gjer informasjonen rikare.

Skiljet mellom data og metadata er i ferd med å forsvinna. Alt innhald er i ferd med å bli metadata.

På nettet er det brukarane som har kontroll med organiseringa og oversikt over orden. Det gjer at det veks fram nye, brukarkontrollerte måtar å organisera informasjon på.

Det som ikkje blir sagt, er også viktig.
olksonomiar er nærare knytte til prototype-teorien enn klassisk kategorisering.

Fire avsluttande setningar:
1. There is no one world order
2. What matters most is what cannot be said (language is the best knowledge represent action)
3. We need every way of seeing and knowing (keep the center simple)
4. We can only do this together

[Dette "referatet" yter på ingen måte David Weinberger rettferd - som den glimrande foredragshaldaren han er]

Stian Danenbarger, Bouvet: Small pieces meaningfully joined
Tittelen er ein vri på David Weinbergers kjende utsagn: Small pieces loosely joined.

Modell med 7 ulike interoperabilitets-begrep:
0 - ingen i.o.
1 - teknisk
2 - syntaktisk
3 - semantisk
4 - pragmatisk
5 - dynamisk
6 - konseptuell

Overgangen frå semantisk til pragmatisk interoperabilitet er viktig: Den semantiske interop.bil. føreset ei meining medan den pragmatiske opnar for fleire ulike meiningar etter kontekst, om det same temaet (blir i TM løyst med m.a. scope).

Frå Porters Value Chain til Value Network (communication, coordination, cooperation, collaboration, channel).

Tags are cheap, og taggar gir heilt klar meirverdi, men samtidig har dei også klare begrensingar pga. at det berre er syntaktisk interoperabilitet. Eit eksempel frå Weinbergers blogg der han skriv om Topic Maps-konferansen og brukar taggen topicmaps frå Technorati. Det finst andre taggar som 'topic maps', 'topicmap' og 'emnekart' på Technorati, men pga. ulik skrivemåte klarer ikkje Technorati å sjå at dei alle handlar om det same.

OASIS Technical Committee:

Published Subjects Identifiers (PSI) Requirements:
1. A Published Subject Identifier must be a URI
2. A PSI must resolve to a human-readable Published Subject Indicator
3. A Published Subject Indicator must explicitly state the unique URI that is to be used as its Published Subject Identifier

Kan kombinera det bloggarar har utvikla (tagging, trackback osv.) med verktøy som PSI'ar og slik løfta interoperabilitetsutfordringane.

Steve Pepper: Everything is a Subject
Steves tittel på foredraget heng nøye saman med tittelen på årets konferanse: Towards the Vision of a Subject-Centric Computing.

Startar med Vannevar Bush og hans banebrytande artikkel frå 1945, As we may think. Arikkelen har inspirert mange og har i grunnen ført fram til web'en som Tim Berners-Lee lanserte. Bush meinte dåtidas teknologi var håplaust gammaldags for å realisera det han meinte var presserande behov. Hans Memex-system var veldig fokusert på dokument.

Her er Steve Pepper ueinig med Bush. Dokument handlar om subjekt. Subjekta eksisterer som konsept i hjernen vår.

Bush hadde rett i at vi tenkjer assosiativt; han hadde rett i at ..., men han tok feil når han tok det dokument-sentrerte konseptet og ikkje det subjekt-sentrerte. Den underliggjande modellen for emnekart er as we may think. Emnekart har helst vorte brukt til portalar, men det er ikkje ein spesifikk portal-teknologi. I det heile er det ikkje ein spesifikk web-relatert teknologi. Emnekart vart funne opp i 1991, før web'en som me kjenner den, var kjendt.

Semantisk og pragmatisk (interop.bil.) er vesensforskjellige. Semantisk interop. er utan kontekst, medan pragmatisk interop. tek omsyn til kontekst. I TM blir pragmatisk interop. ivareteke ved scope.

Fletting (merging) er den kraftigaste funksjonen i TM. Fletting kan skje automatisk. Det er noko som er umuleg med databasar eller XML-dokument. Ein viktig grunn er at namn (tekststrenger) er notorisk upålitelege til slikt. Dette er noko bibliotekarar og lingvistar har visst i hundrevis av år, men som it-sektoren av ein eller annan grunn ser ut til å måtta erfara igjen og igjen. Det finst nokre svært få unnatak frå regelen om at alle subjekt/konsept har fleire namn; det finske sisu er eitt, Xhosa-ordet ubuntu eit anna. Begge to er veldig kulturelt betinga.

Meining er uttrykt i relasjonen mellom representasjonen og referenten (også kalla intensjonalitet).

Published Subject Identifier er ein veldig viktig del av TM og er ein modell for global identitet. For tida er det berre TM som har eit system for å handtera ein global identitet. Men korleis skal nokon få tak i den? Det er eit godt spørsmål og eit spørsmål som det enno ikkje finst noko godt svar på. Men å publisera identifikatorane våre er heilt sentralt, det ligg jo i begrepet PSI. Ein god modell for PSI-forvaltning og -gjenfinning er ei stor utfordring som må løysast.

TAO-modellen (topics, associations og occurrences) står for berre 10 % av potensialet i emnekart. Scope står for nye 20 % og bruk av PSI-ar aukar potensialet til minst 50 %. Resten av potensialet i TM er mellom anna å læra frå web 2.0 (subject-centric tagging, wikis, blogging).

Steve meiner subject-centric computing representerer eit paradigme-skifte. Ordet paradigme-skifte blir dessverre brukt litt for ofte, men kanskje det er på sin plass her? [min kommentar]. Avslutningsvis gjentok Steve sjølvsagt at "forøvrig mener jeg at den nasjonale kunnskapsbasen må bygges på emnekart".

Paneldebatt
Kvifor er ikkje TM meir brukt (internasjonalt)?
Steve meiner at det skuldast mykje W3C og Tim BLs enorme innflyting. Sjølv om TBL hadde ein genial ide (web'en), betyr ikkje det at den neste er like genial (semantisk web).

Kva ville vera "killer application" for TM?
TM-drivne portalar må kunna kallast i alle fall ein delvis KA - i Norge, og særleg i offentleg sektor har det vist seg å bli svært populært.

Peter Brown: Trur ikkje på ein KA, men på ein nettverkseffekt der mange små TM-drivne nett blir kopla saman. Men det må skje med identitetar som ein er einige om og som er kjende.

Er ikkje TM og "everything is miscellaneous" motstridande syn?
David W.: På ingen måte. Sjølv om "alt er ulikt" ser vi det ikkje slik. Sjølv om informasjonen på nettet i grunnen er kaotisk, ser vi den ikkje slik. Vi ser den alltid strukturer på ein eller annan måte, gjennom eit presentasjonslag.
Trur at namnet Topic Maps står i vegen for du må først forklara at det ikkje er eit kart. Subject-centric computing er truleg eit betre namn. Men ein bør gå ut og spørja folk!

Eg etterlyste ein lettvekts-versjon av TM fordi det er for høg barriere å starta opp. Spørsmålet var kanskje litt uklart, men Steve peika på at fleire forslag til ontologiar som ein startpakke, kunne vera ein ide. Stian lurte på om spørsmålet gjaldt utviklarar eller sluttbrukarar (eg meinte det siste) og var til dels einig i at det mangla litt for å gjera det lettare for sluttbrukarar å bruka TM.

Ordstyrar Shazad Rana, Microsoft, tok også opp att utfordringa med å gjera TM enklare i avslutninga av paneldebatten.

Og så var TM 2008 over - alt i alt ein god konferanse som sikkert vil forsterka interessen for TM i alle fall i norsk offentleg sektor.


torsdag 3. april 2008

Topic Maps 2008 - dag 1






Hans Chr. Holte
, sjef for DIFI, opna konferansen Topic Maps 2008 i dag. Han peikte på at semantisk web og interoperabilitet er eit viktig tema for offentleg sektor framover, som middel for å redusera den fragmentariske opplevinga brukarane har. Han nemnde emnekart-initiativ i DIFI/Norge.no med Los (utan å ta namnet i sin munn!) og Høykom-prosjektet Norge.no hadde saman med Husbanken, Vegdirektoratet og Numedalskommunane. Til slutt advarte han mot feller for nye teknologiar som emnekart - at teknologien blir målet og ikkje middelet. Ein fornuftig advarsel.

Alex Wright
Alex Wright snakka om "The Web that wasn't" - om web'en som aldri vart noko av. Foredraget var ein historisk gjennomgang av viktige tenkjarar og tankar om kunnskapsorganisering. Han starta med emnekart 1.o som var Thomas Aquinas og hans tankar om metodar for å hugsa ting, særleg ved hjelp av assosiasjonar.

Vidare brukte han ein del tid på belgiaren Paul Otlet og hans visjonære idear om eit verdsomspennande kunnskapsnettverk kalla Mondaneum. Han klarte faktisk å byggja eit slikt Mondaneum og ei av tenestene var slik at folk kunne telegrafera inn eit spørsmål, personane som jobba i Mondaneumet slo opp svaret og sende det tilbake pr. telegraf. Ein tidleg versjon av Google, med andre ord.

Andre personar Wright nemnde som pionerar for web'en, var (sjølvsagt) Vannevar Bush, Eugene Garfield ("far" til Googles PageRank, i alle fall konseptet bak), Doug Engelbart, Xerox PARK og Ted Nelson. Særleg er Nelson, som er mannen bak hypertekst, undervurdert som visjonær tenkjar og inspirator for web'en. Det skuldast sikkert mykje den eksentriske veremåten hans. Ted Nelson er på ingen måte imponert over web'en, han er tvert om svært skuffa over det han ser. Han seier at web'en er "decorated directories" og manglar vesentlege eigenskapar, mellom anna tovegs-lenker.

Wright avslutta med følgjande oppsummering av web'en som ikkje vart noko av:

- marriage of top-down taxonomies with bottom-up “social practice
- two-way links
- visible pathways
- typed association
- abstraction of concepts from the presentation layer

Petter Thorsud, DSS
Innleiing til eforvaltningssesjonen. Petter orienterte om opprettinga av eit forum for offentlege verksemder innan temaet portalar og publisering. Av deltakarane er utanom DSS/regjeringa.no, DIFI/Norge.no, Stortinget.no, Skatteetaten.no, Nav.no, Forbrukerportalen.no, Bergen.kommune.no og fleire. Mange av desse har portalar baserte på emnekart, men trass felles semantisk standard, er det lite eller inga utveksling av informasjon mellom portalane.

Marit Mellingen, DIFI
Hovudutfordringa er å setja namn på ting (ref. Gary Larsons fantastiske teikning) og bli einige om desse namna. Det er ikkje først og fremst ei teknologisk utfordring. Fare for å bli overambisiøs, å laga ein ontologi for heile universet. Må heller standardisera så lite som muleg (på tvers), men det vi standardiserer, må vera veldig bra! Må velja områda for interoperabilitet med omhu (slik tolka eg presentasjonen i alle fall).

Omtale av Los-initiativet. Utofrdringar å utvida tilpassing/bruk av Los til fleire off. verksemder enn kommunane. Utvida Los-ontologien og kopla den til andre ontologiar. Ei utfordring er at Los er på eit nokså generelt nivå og at det kan bli for mykje informasjon - information overload. Publisera ontologien og invitera andre til å ta den i bruk og eventuelt byggja vidare på den. Det gjeld også andre enn offentleg sektor.

Robert Keil, Creuna
Creuna har vore ansvarleg for mange emnekartportalar, av dei seinare utviklingsarbeida er Stortinget.no og Altinn.no.

Hovudutfordring: Brukaren ser offentleg sektor som ei eining, ikkje som dei mange ulike portalane som finst der. Dette gapet i forventning må reduserast ved at offentleg sektor reduserer fragmenteringa og framstår meir som ein heilheitleg informasjonsleverandør.

Stortinget.no: Målgruppa er "alle". 'Sak' er det sentrale begrepet (subject) og alle vegar skal føra til saka. Emnekart brukt til å binda begrepa saman. Brukar også emnekart til å visa ulike steg i ein saksgang.

Altinn.no: Informasjonsdelen av portalen er basert på emnekart. Teknisk sett er det .NET-teknologi (som Stortinget.no og Regjeringa.no) med EPiServer + TMCore som portal- og publiseringsrammeverk. Ontologien i Altinn.no er utvikla med utgangspunkt i andre ontologiar som Los, SERES, Skatteetaten m.m. Resultatet vart ein ontologi som ein miks av desse utgangspunkta.

Det er eit stort behov for integrasjon mellom portalar og offentleg sektor er meir enn klare for dette, med eller utan emnekart. Leverandørane er også klare til å støtta dette.

Peter Brown, Pensive: Status for interoperabilitet i EU
Starta med å visa bilete av den første brua basert på stål, ei bru i England. Den er modellert etter bruer basert på tre, for det fanst ikkje modellar for stål på tidspunktet. På mange måtar er det sameleis med eforvaltning; modellane er baserte på gamle, analoge former og resultatet er ofte deretter [det som tidlegare skattedirektør Bjarne Hope kalla "å setja straum på skjemaet"].

eGov-standardar er sjeldan obligatoriske, eller følgde opp juridisk,
På EU-nivå treng ein betre oversikt over status og aktuelle initiativ for å unngå for mykje overlapping. Må også innsjå og ta inn over seg at det ikkje finst ein sentral institusjon med ansvar for eGov og interoperabilitet.

"Build a portal!" har vore EU sitt svar på dei fleste interop.bil.utfordringane. Etter kvart har det vorte mange portalar...
"Mistakes are the portals of discovery" (James Joyce) -> "Portals are the mistake of discovery"

Må leggja namneautorisasjon (PSI - Published Subject Identifier) til dei rette autoritetane - dei offentlege verksemdene som har ansvaret innan sitt område. Også tenkja lettvektsløysingar og dela fragment der det er hensiktsfullt (rss-teknologi).

eGovernment Focus Group: Tilråding på standardiseringsområdet for offentleg forvaltning. Fleire eksempel og demonstratorar baserte på emnekart-teknologi i dette arbeidet.

EU sitt tenestedirektiv: Treng eit "single point of contact" for informasjon om tenester tilgjengelege i alle EU-landa ("please, no portals..").

Emnekart markerer eit skifte i måten å sjå og behandla informasjon på.

Marco Aarts, ICTU: Knowledge Models for Government Information
ICTU er eit slags DIFI i Nederland, med ansvar for å hjelpa forvaltninga å oppnå betre resultat av IT-investeringar. Dei sorterer under Ministry of Home and Kingdom Affairs, som vel er parallellen til Fornyings- og adm.dep.

Nederland har:
  • 443 kommunar
  • 12 provinsar
  • 29 waterboards ('vassverk' er kanskje ikkje den rette oversetjinga?)
  • Sentrale myndigheiter
  • Regionale samarbeidsorgan
Totalt rundt 1 600 offentlege verksemder.

225+ off. verksemder publiserer metadata som blir samla i ein sentral indeks og publisert på ein samla portal overheid.nl. Verkar som ein kombinasjon av Norge.no og Los (slik Los er tenkt å bli når/viss det blir teke i bruk for fullt). Målet er at denne portalen skal kunna svara på over 80 % av spørsmåla brukarane har om offentleg sektor (= Government Answers). Utfordringa er å få løysinga over på ein standardisert plattform.