Tener tablas insertadas dentro de un documento PDF puede ser una pesadilla. Puede estar protegido o si lo copias y lo pegas en tu hoja de cálculo, sale un desastre mal copiado o simplemente no es posible. Con Tabula instalada en tu computadora, la extracción se hace sumamente fácil, limpia y rápida, incluso a veces automatizada.
Fue creada por el ingeniero de software argentino Manuel Aristarán junto a Mike Tigas y Jeremy B. Merrill con el apoyo de ProPublica, La Nación DATA, Knight-Mozilla OpenNews y The New York Times sobre software libre, puede descargarse para Windows, Mac y Linux en su página web https://tabula.technology/, donde además hay más datos sobre su código en GitHub.
¿Cómo usar Tabula?
- Una vez instalado, se abre una ventana de MS-Dos y después un cliente en el que subes un archivo PDF
- Se abre el PDF en la plataforma de Tabula. Allí puedes seleccionar la o las tablas arrastrando el ratón para rodearlas en una caja o decirle al programa que busque y seleccione automáticamente las tablas dentro de un documento (muy útil para los muy grandes)
- Haz click en "Preview & Export Extracted Data" para que Tabula las extraiga y te las muestre en previsualización, lo que te permite revisar si todos los datos están completos o regresar para seleccionar mejor. Esta selección permite incluso dejar una columna o un titular por fuera.
- Puedes copiar y pegar en tu hoja de cálculo o darle al botón "Export" para enviarlo a Google Drive
Aunque no funciona con escaneos de fotos en PDF, los favoritos de los ministros, sí me ha funcionado con tablas que no son dibujadas sino una imagen.
Así que no más copiar dato a dato ni usar OCR con resultados espantosos, con Tabula tendrás las tablas limpias y listas para analizar.