Formulario de búqueda en el sitio web
9 de julio de 2020
Inicio » Noticias » Noticia 

Escarbando en la red: herramientas para extraer y administrar datos

22 de julio de 2014. Actividades de la FNPI

Enviando tu valoracion...
Valorado: 4.5 de 5. 6 voto(s).
Haz click en la barra para valorar el elemento.
Participantes del Taller de periodismo de datos en temas ambientales. Foto: Carlos Eboli

Participantes del Taller de periodismo de datos en temas ambientales. Foto: Carlos Eboli

El valor más importante del periodismo de datos es su capacidad de potenciar el compromiso de servicio público de este oficio. El avance de la tecnología y la experimentación con nuevas formas de narrar ofrecen nuevas oportunidades para crear historias más atractivas, pero sobre todo con un rigor basado en el análisis y la depuración minuciosa de datos concretos.

Bajo este premisa, los participantes del Taller de periodismo de datos en temas ambientales comenzaron a trabajar en proyectos en red, donde la clave es el trabajo colectivo e interdisciplinario. Durante toda la semana, los talleristas, bajo la guia de los maestros Mar Cabra y Matthew Caruana Galizia, desarrollarán sus propios proyectos de visualización de datos.

Estas son algunas de las herramientas que han inspeccionado durante el taller y que son muy utilizadas en la labor diaria de los periodistas de datos.

Extracción de datos y web scraping

En la red abunda la información, sin embargo, no siempre es fácil extraerla de manera que se pueda analizar y convertirse en una base de datos que nos permita hacer búsquedas, cruces o segmentaciones. Por eso, existen herramientas que nos ayudan a obtener una buena materia prima a partir de la cual podamos encontrar y construir una buena historia periodística. A esta búsqueda, similar a escarbar para encontrar material valioso, se le conoce como web scraping.

Uno de los tipos de archivos más “problemáticos” para extraer información son los PDF, pues están diseñados para que sean archivos de sólo lectura. Sin embargo, hay algunas herramientas que nos pueden ayudar a “exprimirles” información y convertirlos en archivos de Excel o HTML que nos permitan trabajar con ellos:  

PDF to Excel online: Permite convertir los archivos PDF en Excel. El programa extrae de manera fiel los números, las columnas y las filas.

CometDocs: Este programa gratuito permite extraer información de archivos PDF y convertirlos en Word, Excel, Power Point, entre otros.

Zamzar: Esta herramienta en línea ofrece más 1.200 opciones de conversión de archivos de video, audio, imagen o lectura. Es gratuita.

Tabula: Es una de las herramientas más utilizadas por las unidades investigativas de medios como ProPública, The Times of London y La Nación. Ofrece una interfaz sencilla para convertir un PDF en archivos CSV o Excel.

Tesseract: es un programa de OCR (Reconocimiento óptico de caracteres) que permite convertir archivos de imagines en texto.

Fine Reader: Otro programa de OCR que convierte imagines en archivos editables

Open Calais: Esta herramienta desarrollada por la Agencia Reuters se propone organizar los contenidos en metadatas semánticos. Es decir, recibe un texto y lo analiza para identificar hechos, lugares, personas, etc, y presentarlos en format RDF, es decir de manera estandarizada para que sean reconicidos y entren a ser parte de una gigantesca base de datos “inteligente”.

Apachetika: Permite extraer metadatos y textos de una amplia varidad de formatos.

De igual manera, cada navegador ofrece aplicaciones, extensiones o complementos que ayudan con la extracción de datos de archivos o de la web:

FireFox Table2Clipboard: permite la extracción de tablas

Chrome TableCapture: permite la extracción de tablas para usarlas en programas como Excel

Chrome Scraper: Permite extraer información de sitios web y exportarla en archivos CSV.

Este taller es parte de la alianza de CAF –banco de desarrollo de América Latina- y la FNPI, que tiene como objetivo estimular el profesionalismo, la independencia y la responsabilidad en la práctica del periodismo en los países de Iberoamérica, como estrategia encaminada a buscar que medios y periodistas ofrezcan a la sociedad una información de calidad que contribuya a un entorno institucional propicio para promover en estos países procesos de desarrollo integral basados en criterios de competitividad, equidad, gobernabilidad, sostenibilidad ambiental e integración regional. 

El taller también es posible al apoyo de Canal Futura, aliado de la FNPI en el desarrollo de varias actividades de formación y reflexión periodística en Brasil.

Durante toda la semana, estaremos compartiendo los principales aprendizajes que surjan de esta actividad.

Aquí la presentación de los maestros

Volver al listado

comments powered by Disqus