Recomendaciones técnicas para estandarizar la publicación de Datos Abiertos

Fuentes de datos

Recomendaciones generales para archivos de datos

En caso de que la fuente de datos sea un archivo este deberá cumplir con las siguientes condiciones:

  • Nombre del archivo
    • El nombre del archivo solo acepta números, letras y guion del medio, excluyendo caracteres extraños como tildes, diéresis, virgulilla, etc.
    • Si el nombre tiene más de una palabra estas deberán separarse con guion medio.
    • El guion no debe utilizarse como primer o último carácter en el nombre del archivo.
    • El dominio del contenido del archivo debe reflejarse en el nombre del archivo.
    • El versionado del archivo debe ubicarse al final, separado del nombre por un guion medio.
      Ejemplos correctos:
      1) rendicion-cuentas-2021-v001.xml,
      2)  rendicion-cuentas-2021-v001.csv
  • Tamaño del archivo
    • Se recomienda que los archivos de datos no superen los 2Gb de datos.
    • Si el tamaño de los archivos de datos supera los 2Gb de datos, se debe considerar la fragmentación del archivo en la cantidad de archivos necesarios que cumplan la condición anterior.
    • Si los archivos son fragmentados se recomienda nombrarlos en el orden que corresponda, agregando un número ordinal de dos dígitos al final del nombre. Ejemplo: rendicion-cuentas-2021-v001-01.csv
  • Archivos comprimidos
    • La publicación de archivos comprimidos sólo se recomienda para facilitar la descarga de grandes volúmenes de datos, siempre que se cumpla con la existencia de alternativas para la descarga parcial de los datos.
    • Los archivos comprimidos deben contener únicamente la distribución del archivo de datos, excluyendo otros archivos vinculados como metadatos, notas metodológicas, licencia de datos abiertos u otros archivos de datos vinculados al mismo conjunto de datos.
  • Recursos
    • Los recursos incluidos en un conjunto de datos no pueden incluir valores que sean el resultado de operaciones realizadas a partir del procesamiento de los datos incluidos en el archivo. Ejemplo: totales u otro valor que refiera a un nivel de granularidad diferente.

Recomendaciones específicas para archivos de datos tabulares

  • La publicación de datos abiertos debe hacerse utilizando la codificación UTF-8.
  • La primera fila debe contener los nombres de las columnas.
  • Las columnas pueden crecer a lo largo del ciclo de vida del conjunto de datos hacia la derecha y al final de la última columna existente; para mantener compatibilidad con procesos anteriores.
  • Los nombres de las columnas deben respetar alguno de los siguientes formatos:
    • Mayúsculas/Minúsculas (Camel Case).
      • Ejemplo: 1) Lower Camel Case = fechaFinal o 2) Upper Camel Case = FechaFinal
    • Texto en minúsculas separando palabras con guión bajo (Snake Case).
      • Ejemplo: fecha_final
  • Los nombres de las columnas no deben incluir espacios ni caracteres especiales a excepción del guión bajo.
  • Los datos deben crecer en forma vertical, agregando nuevos datos en la primera fila vacía después de la última fila con datos.
  • Se recomienda que la cantidad de filas de datos no supere el millón.
  • Si la cantidad de filas supera el millón, se debe fragmentar el archivo en la cantidad de archivos necesarios que cumplan la condición anterior.
  • Se recomienda que los datos tabulares se publiquen en formato de valores separados por coma (CSV) según lo especificado por la RFC 4180.
  • En los casos que existan campos que contengan valores múltiples, los valores deberán separarse con un carácter “|”
    Ejemplo: 2023-01-01,234|405|341|2|89,”Juan”,”Pérez”,

Servicios web

  • Si la fuente de datos se hace disponible mediante un servicio web o API, la URL debe cumplir con la RFC1738.

Ejemplo de estructura de una URL:

protocolo://<servidor>:<puerto>/<ruta>?<parámetros>

  • Se recomienda que los servicios web utilicen las convenciones y buenas prácticas existentes para una arquitectura de tipo REST o SOAP.
  • Para el intercambio de datos se recomienda la utilización de formatos de tipo Json o XML.

Etiquetas