Hoja de ruta


Según recomienda el W3C en su última guía de publicación, se tienen que liberar datos útiles y en formatos reutilizables. Cualquier formato es bienvenido pero cuanto más estructurados y enriquecidos estén los datos, más fácil será reutilizarlos y construir aplicaciones que los traten automáticamente. Por eso existen formatos y proyectos de datos abiertos que se consideran de menos valor que otros. Según la clasificación propuesta por Tim Berners Lee, el formato más adecuado es RDF, basado en XML y susceptible de pasar fácilmente al siguiente nivel conocido como "datos enlazados" (linked fecha), que a su vez es la base técnica para alimentar la llamada web semántica, un estándar donde cada dato contiene información asociada que lo relaciona automáticamente con otros.

Siguiendo estas recomendaciones, el Govern de les Illes Balears seguirá las siguientes etapas para liberar los datos públicos de los que dispone:

Etapa 1) Publicar los datos disponibles actualmente tanto en formatos no estructurados como en formatos estructurados, por ejemplo, XML, RDF o CSV. Este paso también se corresponde con la publicación de los indicadores de transparencia.
Dentro del esquema de despliegue de cinco estrellas se podría ver como un nivel 1, 2  y 3 de liberación de datos.
Nota: ver esquema de despliegue de cinco estrellas definido un poco más abajo.

Etapa 2) Crear un catálogo de datos online automático para que los ciudadanos puedan conocer qué datos han sido publicadas o modificados. Todos los nuevos datos publicados en el catálogo de datos serán publicados en formatos estructurados.
Dentro del esquema de despliegue de cinco estrellas se podría ver como un nivel 3 y 4 de liberación de datos con el valor añadido de disponer de un catálogo para acceder a los datos.

Etapa 3) Mejora de los datos para que se adapten a los estándares de la Web Semántica. Adquiriendo un nivel de Linked Data (máximo nivel de publicación de datos en formato abierto)
Dentro del esquema de despliegue de cinco estrellas se podría ver como un nivel 5 de liberación de datos.

Esquema de despliegue de cinco estrellas

Clasificación según el esquema de despliegue de cinco estrellas por|para la publicación de datos abiertos propuesto por Tim Berners-Lee:

Publicado

Existen datos publicados en formatos no estructurados.

Para utilizar los datos se requiere un esfuerzo extra para tratar el documento. Ejemplos: formados de imagen  (JPG, PNG, GIF,...), formados de vídeo (AVI, MPG, MP4 ...), formados de música (mp3, wma...), formados binarios (pdf, ps ...) y muchos otros.

Las ventajas de este nivel es que los datos se pueden visualizar, imprimir o almacenar localmente y además son fácilmente publicables.

Datos estructurados

Los datos están publicadas en formatos estructurados, el problema es que los datos todavía están dentro de un documento y en este caso con una licencia propietaria y por lo tanto se requieren herramientas que no son públicas para acceder a los datos.

Las ventajas de este nivel (aparte de los definidos al nivel ) es que los datos se pueden procesar directamente si se dispone del software propietario, se pueden exportar a otros formatos estructurados y todavía son fáciles de publicar.

Formados abiertos

Los datos están publicados en la web en formato estructurado, pero ahora los formatos de publicación son abiertos y no propietarios. Cualquier persona puede utilizar (además de acceder) los datos de forma sencilla. Todavía se trata de datos "de la web" y no en la web y por lo tanto, el contenido depende del contexto.

Los formatos de publicación de datos en formato abiertos son, por ejemplo, CSV o XML.

Las ventajas de este nivel (aparte de los definidos al nivel ) es que los datos se pueden manipular de la forma que se desee sin estar limitado por las particularidades del software. El problema es que por parte del publicador la publicación pueden hacer necesarios procesos de conversión para exportar los datos de formatos propietarios, con la ventaja de que todavía es muy sencillo publicar los datos.

Utilización de URIs para identificar los datos

En este nivel, los datos ya están "en la web". Podemos representar información estructurada, los documentos su validables y los datos adquieren significado dependiendo de las etiquetas que se utilicen para la confección del documento.

Las ventajas de este nivel (aparte de los definidos al nivel ) es que los datos se pueden vincular con los de cualquier otro  lugar (en la Web o localmente) y que los usuarios pueden reutilizar partes de los datos. El principal problema es para el publicador, ya que la publicación de estos datos requiere de un cierto tiempo estructurando y separando los datos, asignando URI's a los datos o pensando como presentarlos. Con la ventaja de tener un mayor control sobre los datos para poder optimizar su acceso (balanceo de carga, caché, etc.)

Enlazar con otros datos ( Linked Data)

En este nivel, el objetivo es enlazar los datos más relevantes utilizando URI's para asociarlas a un contexto concreto, de forma que permitimos relacionar los datos originales con otros datos nuevos.

El formato más utilizado es RDF.

Las ventajas de este nivel (aparte de los definidos al nivel ) es que pueden descubrir más datos relacionados durante la consulta de los datos originales y se puede aprender a partir de los esquemas de los datos. Por parte del publicador de los datos se tienen que invertir recursos al vincular los datos a otros datos existentes en la Web con la ventaja de que ahora los datos son más fácilmente localizables (porque pueden ser vinculadas por otros datos), incrementando así el valor de los datos publicados.