Criterios previos a la publicación
A continuación se desarrollan aspectos previos que se deben tener en cuenta a la hora de definir y preparar tus datos antes de realizar tu publicación.
Definir los datos a publicar
La organización debe definir los datos que desea publicar, esta etapa se divide en tres pasos:
- Identificar qué datos se abrirán.
- Seleccionar los formatos de los datos a publicar.
- Definir la publicación de los datos.
Paso 1 – Identificar qué datos se abrirán
Partiendo de la base de que todos los datos que puedan ser compartidos públicamente deben ser abiertos y publicados para su diseminación, existen diferentes disparadores que definen la prioridad sobre cuáles publicar.
Las publicaciones pueden ser de distinta índole, estén regidas por la norma vigente de la Ley de Transparencia Activa o datos de otro tipo. Es relevante considerar su importancia para la sociedad y su facilidad de apertura, y además cumplir con los principios de Datos Abiertos, los cuales se describen en el documento “Introducción a la publicación de datos”.
Por otra parte, se deberán identificar y priorizar qué datos publicar con la ayuda de los siguientes criterios, contemplando su impacto en la ciudadanía, sociedad civil, academia, medios de prensa, etc.:
- ¿Qué información solicitan habitualmente y exige un procesamiento de datos?
- ¿Qué información (datos) existe en la organización que puede ser de interés para la población?
- ¿Qué información se brinda habitualmente a la prensa o se publica en medios de comunicación que puede ser reutilizada?
- ¿Qué información se intercambia con otros organismos que puede ser de interés general?
- ¿Se está cumpliendo con la normativa de datos abiertos y de Transparencia Activa?
Si la publicación se rige por la Ley de Transparencia Activa (TA) hay que tener en cuenta que la misma indica unos conjuntos de datos preestablecidos a través de un estándar ya definido. Para profundizar sobre este punto accedé a la documentación publicación de datos de Transparencia Activa.
Paso 2 – Seleccionar los formatos de los datos a publicar
El siguiente paso consiste en definir en qué formatos se deben publicar los datos.
Existen algunos formatos adecuados (ejemplo: .csv, .xml, json) para la publicación de datos abiertos con el fin de mejorar dicha divulgación. Los formatos se clasifican según su nivel de apertura (qué tan abiertos son), a partir de una categorización internacional basada en cantidad de estrellas (de 1 a 5). Dependiendo de la cantidad de estrellas que posea el dato se define si éste es adecuado o no. Es decir que a una mayor cantidad de estrellas, mayor nivel de apertura (más adecuado el dato).
Se debe tener en cuenta que las publicaciones cuentan con dos tipos de recursos, los datos propiamente dichos y los llamados metadatos, que son datos descriptivos de los datos publicados. Tanto los datos como sus metadatos deben cumplir los niveles de apertura. Agesic considera como válido para este nivel de apertura los formatos categorizados en 3 estrellas, los cuales son: (csv, xml, json).
Esta información se encuentra detallada en el documento “Introducción a datos abiertos”.
Paso 3 – Definir la organización de los datos
Una vez identificados los datos a publicar y sus formatos (Paso 1 y 2), se debe definir la forma de publicar los datos. Es decir, cómo agruparlos en los conjuntos que los contendrán para generar una adecuada publicación en el Catálogo Nacional de Datos Abiertos.
Para una correcta y efectiva organización se debe tener en cuenta:
Periodicidad de los datos: Refiere a la frecuencia con que debe ser actualizado un conjunto de datos. Existen al menos tres escenarios:
- Frecuencia de actualización mayor a un año. Se recomienda generar un conjunto de datos que contenga los recursos anuales (especificando en el nombre, el año al que corresponden los datos).
- Datos que se actualizan entre un mes y un año. Se recomienda generar un conjunto de datos al que se le cargue un archivo por mes, de acuerdo a la periodicidad (por ej. si se trata de un conjunto de datos anual, se le cargarán 12 archivos por año, es decir un archivo cada mes).
- Para los conjuntos de datos que se actualizan con una frecuencia menor o igual a un mes se recomienda la utilización de API´s para el acceso y obtención de los datos.
Tamaño de los recursos: El Catálogo Nacional de Datos Abiertos permite subir recursos de un tamaño de hasta 2Gb, sin embargo, si el recurso es superior a 100Mb, se recomienda dividir el conjunto de datos en varios recursos.
Estas acciones buscan evitar comprimir los archivos (.zip, .rar, etc.). Si bien en casos excepcionales está permitido su uso, se considera que este no es el formato más adecuado para la publicación de datos abiertos, ya que dificulta su reutilización. En caso de ser necesario generar un comprimido, se debe tener en cuenta que:
Los recursos dentro del comprimido deben contener la misma estructura y formalidades que si fueran cargados individualmente; y aclarar en la descripción el contenido de los recursos, las extensiones, los archivos y su organización, de forma que no sea necesario tener que abrirlos para entenderlos.
Ubicación de los recursos: Los datos abiertos pueden ser subidos al Catálogo (archivos) o enlazados (implica proporcionar una dirección de acceso a los mismos) a otros sitios en donde estén publicados. En el caso de que los recursos sean enlazados a sitios externos, hay que tener la precaución de que el enlace no sufra modificaciones en el tiempo, ya que de ocurrir y no actualizarse dicho, se perderá el acceso a los recursos.
Preparar los datos a publicar
Una vez definidos los datos a publicar, sus formatos y el licenciamiento adecuado, se procede a su publicación.
Es importante recordar que actualmente existen tres alternativas de publicación de datos abiertos en el Catálogo Nacional de Datos Abiertos, dos de forma manual con las funciones llamadas: “Agregar” o “Transformar y Agregar” y una tercera opción a través de una interfaz de programación (API). Para cualquiera de las tres alternativas disponibles, es importante tener preparados los datos que se van a publicar.
Desde la funcionalidad llamada: “Agregar” y desde la interfaz de programación API, deberás crear los archivos de datos en los formatos abiertos que se definieron para cumplir con el nivel de apertura y, por otro lado, deberás crear también los archivos de sus metadatos respectivos. Tené en cuenta que un conjunto de datos deberá tener un metadato por cada recurso de dato distinto y éste también debe cumplir los niveles de apertura antes mencionados.
Si definís realizar la publicación desde la funcionalidad “Transformar y Agregar” (una forma manual más automatizada), deberás preparar un solo archivo en una planilla electrónica la cual contendrá los datos y los metadatos a publicar, y el proceso se encargará de separarlos y construir su conjunto. Los datos publicados que responden a la Ley de Transparencia Activa normalmente son publicados por los distintos organismos a través de esta funcionalidad la cual está preparada específicamente para dicha tarea con plantillas especialmente creadas para cada ítem de la mencionada ley.
Calidad de los datos a publicar
Luego de tener creado los archivos de datos que vas a publicar, deberás controlar que no existan incongruencias o errores en tus datos y otros controles que se mencionan a continuación:
- Los 8 principios: los datos que publiques deben cumplir con los 8 principios de los Datos Abiertos.
- Sin celdas vacías: Si tus datos están distribuidos en una planilla electrónica, debés asegurarte que no exista ninguna celda vacía. Si el archivo cuenta con celdas vacías y es correcto que ocurra, las mismas deben ser completadas con información que indique que no fue por error. Entonces, si contás con una celda numérica sin dato, le podés asignar un número no representativo, ejemplo: -1 u otro valor y aclarar en los metadatos lo que dicho valor representa. Si tu celda es de tipo texto, entonces podés agregar alguna de las siguientes opciones: “S/D”, “Sin Dato”, “N/C”, “No Corresponde” u otra similar con la correspondiente aclaración en los metadatos. En el caso de fechas se puede utilizar un valor fuera del rango esperado, ejemplo: “1900-01-01”.
- El tipo de dato: Debés verificar que el metadato indique que el tipo de información en una columna en particular es correcto con el dato que contiene esa columna; por ejemplo, si el metadato indica que tal columna es de números (Integer) debés asegurarte que en dicha columna se encuentren todos números, lo mismo si en el metadato se indica que la columna es del tipo texto (String) se debe asegurar que todos tus datos sean del tipo String.
- Respeto a los formatos: Si publicás una columna del tipo fecha (Date), los datos publicados deben mantener siempre el mismo formato. La manera correcta de expresarlo es siguiendo la norma ISO 8601 que plantea las siguientes opciones: “YYYY-MM-DD”, o “YYYY-MM”, o “YY-MM” (primero debe ir el año, luego el mes y por último el día). Toda la columna con fechas debe estar con la misma mascara.
