El documento portable o PDF, es un formato de archivos desarrollado en la década de los noventa, para presentar documentos de manera independiente del programa, dispositivo o sistema operativo donde se abra. El PDF fue estandarizado como un formato abierto en 2008, y no requiere el pago de regalías.
Una de las características principales de este formato, es que, aunque permite seleccionar el texto contenido en el archivo, no es posible extraer de él tablas, datos u otros contenidos.
Esto genera una labor adicional para el periodista, pues muchas de las entidades del estado, archivos y empresas, entregan su información en este formato, y cuando el periodista quiere extraer la información para utilizarla en sus propias tablas o anexarlas a su investigación, se encuentra con que no existe una manera sencilla de copiar y pegar filas de datos, ya que al hacerlo, pierden el orden.
Para esta tarea fue creada la herramienta Tabula; por los periodistas Manuel Aristarán, Mike Tigas y Jeremy B. Merrill gracias al soporte de Knight-Mozilla Open News, ProPública, La Nación DATA y el New York Times.
Con esta herramienta podrás extraer los datos a una hoja de cálculo de Excel o un archivo de valores separados por comas, todo, utilizando una interfaz gráfica sencilla e intuitiva.
Tabula además de ser gratuito y de código abierto, funciona en Windows, Mac y Linux.
Descarga e Instala
Los usuarios de Windows y Linux deben tener una copia de Java instalada. Puedes descargar Java aquí. (Java está incluido en la versión para Mac).
1. Descarga la versión de Tabula para tu sistema operativo:
2. Descomprime el archivo. (Instrucciones para Windows y Mac)
3. Haz clic en la carpeta que descomprimiste y ejecuta el programa Tabula
4. Se abrirá una nueva ventana en tu navegador de internet. Si no se abre automáticamente, escribe http://localhost:8080 en la barra de direcciones.
¿Cómo usar Tabula?
1. Sube el archivo PDF que contiene la tabla de datos.
2. Ingresa a la página que contiene la información, selecciona la tabla haciendo clic y arrastrando para dibujar una caja alrededor de la tabla.
3. Haz clic en ‘Preview & Export Extracted Data’. Tabula intentará extraer los datos y mostrar una previsualización. Revisa los datos para asegurarte que estén correctos. Si faltan datos, puedes regresar y ajustar la selección.
4. Haz clic en el botón ‘Export’
5. Ahora puedes trabajar con tus datos como texto o en una hoja de cálculo.
Nota: Tabula solo funciona en PDF’s basados en texto, no en documentos escaneados.
También puedes ver un tutorial paso a paso sobre cómo utilizar la herramienta, por el siguiente video:
{source}
<!– You can place html anywhere within the source tags –>
<iframe width=»560″ height=»315″ src=»https://www.youtube.com/embed/XwGjZK37Qt0?start=19″ frameborder=»0″ allow=»autoplay; encrypted-media» allowfullscreen></iframe>
<script language=»javascript» type=»text/javascript»>
// You can place JavaScript like this
</script>
<?php
// You can place PHP like this
?>
{/source}