Full de ruta


Segons recomana el W3C en la seva darrera guia de publicació, s’han d’alliberar dades útils i en formats reutilitzables. Qualsevol format és benvingut però com més ben estructurades i enriquides estiguin les dades, més fàcil serà reutilitzar-les i construir aplicacions que les tractin automàticament. Per això hi ha formats i projectes de dades obertes que es consideren de menys valor que d’altres. Segons la classificació proposada per Tim Berners Lee, els formats més adequats són l’RDF, basat en XML i susceptible de passar fàcilment al següent nivell anomenat “dades enllaçades” (linked data), que al seu torn és la base tècnica per alimentar l’anomenada web semàntica, un estàndard on cada dada conté informació associada que la relaciona automàticament amb d’altres.

Seguint aquestes recomanacions, el Govern de les Illes Balears seguirà les següents passes per alliberar les dades públiques de les que disposa:

Etapa 1) Publicar les dades disponibles actualment tant en format no estructurat (PDF) com en format estructurat, per exemple, XML, RDF o CSV. Aquesta passa es correspon amb la publicació dels indicadors de transparència.
Dins l’esquema de desplegament de cinc estrelles es podria veure com un nivell 1, 2  i 3 d’alliberació de dades.
Nota: veure esquema de desplegament de cinc estrelles definit un poc més avall.

Etapa 2) Crear un catàleg de dades online automàtic perquè els ciutadans puguin conèixer quines dades han estat publicades o modificades. Totes les noves dades publicades al Catàleg de dades seran publicades en formats estructurats.
Dins l’esquema de desplegament de cinc estrelles es podria veure com un nivell 3 i 4 d’alliberació de dades amb el valor afegir de disposar d’un catàleg.

Etapa 3) Millora de les dades perquè s'adaptin als estàndards de la Web Semàntica. Adquirint un nivell de Linked Data (màxim nivell de publicació de dades en format obert)
Dins l’esquema de desplegament de cinc estrelles es podria veure com un nivell 5 d’alliberació de dades.

Esquema de desplegament de cinc estrelles

Classificació segons l'esquema de desplegament de cinc estrelles per la publicació de dades obertes proposat per Tim Berners-Lee:

Publicat 

Existeixen dades publicades en formats no estructurats.

Per utilitzar les dades es requereix un esforç extra per tractar el document. Exemples: formats d'imatge  (JPG, PNG, GIF,...), formats de vídeo (AVI, MPG, MP4...), formats de música (mp3, wma,...), formats binaris (pdf, ps, ...) i molts d'altres.

Els avantatges d'aquest nivell es que les dades es poden visualitzar, imprimir o emmagetzemar localment i a més son fàcilment publicables.

Dades estructurades 

Les dades estan publicades en formats estructurats, el problema es que les dades encara estan dins un document i en aquest cas amb una llicència propietària i per tant es requereixen eines que no són públiques.

Els avantatges d'aquest nivell (a part dels definits al nivell ) son que les dades es poden processar directament si es dispossa del software propietari, es poden exportar a un altre format estructurat i encara son fàcils de publicar.

Formats oberts  

Les dades estan publicades a la web en format estructurat, però ara els formats de publicació son oberts i no propietaris. Qualsevol persona pot utilitzar (a més d'accedir) les dades de forma senzilla. Encara es tracta de dades "del web" i no "a la web" i per tant, el contingut depèn del context.

Els formats de publicació de dades en format oberts son, per exemple, CSV o XML.

Els avantatges d'aquest nivell (a part dels definits al nivell ) son que les dades es poden manipular de la forma que es dessitgi sense estar limitat per les particularitats del software. El problema es que per part del publicador la publicació es poden fer necessaris processos de conversió per exportar les dades de formats propietari, amb l'avantatge que encara es molt senzill publicar les dades.

Utilització d'URIs per identificar les dades 

En aquest nivell, les dades ja son "a la web". Podem representar informació estructurada, els documents son validables i les dades adquireixen significat depenent de les etiquetes que s'utilitzin per la confecció del document.

Els avantatges d'aquest nivell (a part dels definits al nivell ) son que les dades es poden vincular amb les de qualsevol altre llov (a la Web o localment) i que els usuaris poden reutilitzar parts de les dades. El principal problema es pel publicador (el Govern en aquest cas) ja que la publicació d'aquestes dades requereix d'un cert temps estructurant i separant les dades, s'han d'assignar URI's a les dades o pensar com presentar-les. Amb l'avantatge de tenir un major control sobre les dades per poder optimitzar el seu accés (balanceig de càrrega, caché, etc.)

Enllaçar amb altres dades (Linked Data) 

En aquest nivell, l'objectiu es enllaçar les dades més rellevants utilitzant URIs per associar-les a un context concret, de forma que permetem relacionar les dades originals amb altres dades noves.

El format més utilitzat es RDF.

Els avantatges d'aquest nivell (a part dels definits al nivell ) son que es poden descobrir més dades relacionades durant la consulta de les dades originals i es pot aprendre a partir dels esquemes de les dades.Per part del publicador de les dades s'han d'invertir recursos en vincular les dades a altres dades existents a la Web amb l'avantatge que ara les dades son més fàcilment localitzables (perquè poden ser vinculades per altres dades) i s'incrementa el valor de les dades publicades.