Version 126, last updated by therm000 at May 10, 2010 06:59 UTC

Extracción de actores y redes complejas de la Cuenca Matanza-Riachuelo

José Ignacio Orlicki (ITBA - CONICET)

Introducción

Dos aspectos de los avances en la informática impactan directamameente en la construcción y la interacción de los ciudadanos con lo público. Son la posibilidad de digitalizar documentos públicos y la posibilidad de realizar un análisis a gran escala los documentos disponibles. La digitalización de documentos públicos consiste en reemplazar el papel por  las computadoras como intermediario administrativo de las actividades públicas. El análisis de datos, ya sean por ejemplo resoluciones legales o mediciones técnicas, es también conocido como Minería de Datos (1). Su objetivo es localizar y extraer patrones ocultos en los datos. Si los datos consisten exclusivamente de textos esta práctica es conocida como Minería de Textos (2). Cuando los datos permiten extraer redes complejas de relaciones, ya sean sociales o de información, esto da lugar al Análisis de Redes Complejas (3).

La informatización de la gestión pública es una de las principales herramientas que permiten la publicación de las actividades y una aproximación a la ideal transparencia democrática. De cualquier manera la digitalización no es garantía de éxito. De acuerdo a como se presenten los datos y documentos de la gestión al público, usando tecnologías de amplio acceso o usando formatos oscuros se puede favorecer u obstaculizar el proceso, respectivamente. El libre acceso a la información estatal es un derecho oficial en la Ciudad de Buenos Aires (4) y en el ámbito del Poder Ejecutivo (5). Es evidente que constituye un instrumento para el ejercicio de otros derechos, para fomentar la participación pública y para poner un coto al poder del Estado mismo, de partidos políticos y de grupos de presión.

También la minería de datos gubernamentales puede ser una buena experiencia para técnicos, científicos o estudiantes se acerquen a la problemática social sin ver menospreciadas sus aptitudes técnicas, brindando nuevas formas de ver problemas antiguos o nuevos. Además muchas veces las nuevas técnicas y teorías surgen del encuentro entre la ciencia y sus aplicaciones, por lo cual no es menor el enriquecimiento intelectual de los investigadores involucrados en este tipo de colaboraciones. Principalmente, si los investigadores se encuentran interesados en el estudio de sistemas o redes sociales complejas no hay excusa para no acercarse a los datos públicos, subproducto de estos sistemas o redes que surgen y evolucionan.

Experiencia con un conflicto ambiental

Vamos a describir brevemente como fue nuestra experiencia con la extracción y minería elemental de datos disponibles relacionados a la Cuenca del Río Matanza y a su desembocadura conocida como Riachuelo. El objetivo fue la detección de actores, temas, acciones y propiedades involucradas en el conflicto, junto con las interrelaciones entre los mismo, las redes. Nos concentramos en la minería de los documentos digitales provistos por la recientemente conformada Autoridad de Cuenca Matanza-Riachuelo o ACUMAR (6). Es el  principal ente oficial encargado de resolver los conflictos ambientales existentes en esta cuenca, publicar información sobre estudios y publicar resultados de políticas. Toda la recolección y procesamiento de datos fue de manera automática usando programas informáticos desarrollados ad hoc salvo excepciones en las cuales se agregaron datos o filtros de forma manual y puntual. Existen herramientas preprogramadas para la minería de texto pero decidimos desarrollar nuestras propias herramientas para tener un total control de los detalles y para adentrarnos en esta problemática y dominio tan específico. En un futuro trabajo se puede considerar el uso y adaptación de herramientas más generales de minería de textos y extracción de redes de actores.

Usando un buscador web comercial, herramienta paradigmática de la información libre, se recolectaron en total  725 documentos públicos del sitio oficial de ACUMAR. De cuales 427 estaban publicados en formato  abierto HTML, 293 en formato comercial PDF, y finalmente 5 documentos publicados en un formato comercial Office. El formato HTML, al ser un estándar abierto, fue el más facilmente procesable durante el rastrillaje automático. Un solo documento HTML no contenía texto plano. En cambio  solamente de 74 de los documentos en formato PDF se pudo extraer texto plano de manera automática, usando una herramienta de uso libre llamada pdftotext (7). Hay que observar que el formato PDF presenta un retroceso en lo que respecta a las tecnologías actuales porque pretende ser un símil del papel impreso, manteniendo sus defectos y evitando en lo posible las virtudes de los textos digitales. Sus limitaciones incluyen protecciones explícitas (solo lectura, contraseñas) e implícitas (ofuscación del texto) para evitar conversiones a otros formatos. Algo similar ocurre con los formatos comerciales, ejemplo Office, que si bien sus especificaciones fueron abiertas al público recientemente, no fueron diseñados para el intercambio libre de información entre distintos formatos. Los 5 documentos en formato Office también fueron pasados a texto plano usando herramientas  de uso libre llamadas catdoc, catppt y xls2csv (8). El corpus textual final resultó en 77176 líneas, 712166 palabras y  4757931 caracteres.

Hay que agregar que las limitaciones de usar un buscador web fueron que él mismo, en este caso, tenía una limitación de 10 megabytes para el tamaño de documentos localizados. Una rastrillaje ad hoc del sitio web del ACUMAR brindaría tal vez documentos de mayor tamaño no localizados por el buscador web. Por lo cual, fue necesario agregar algunos PDFs, como por ejemplo el Plan Integral de la Cuenca y sus Anexos (9), en una lista ad hoc, apéndice de los 725 documentos originales. Observamos que la presentación digital del Plan Integral de la Cuenca se realizó en  un archivo más 3 archivos anexos. Entonces es inadecuada al compararse con la presentación impresa en 20 volúmenes y 5000 paginas. Lo cual haciendo una analogía con el papel, sería como transformar la Enciclopedia Británica completa de 17 volúmenes de un grosor manejable en 4 archivos digitales de tamaño inmanejable para el usuario promedio. Los datos, exceptuando los archivos PDFs gigantes originales, se encuentran disponibles en Internet en la página de nuestro proyecto (10).

Detallemos el proceso que se realizó con el cuerpo o corpus de documentos disponible para la extracción de elementos o nodos destacados dentro de los documentos. Como detallamos en el párrafo anterior, los documentos fueron llevados a texto plano en un proceso de normalización. Luego se aplicaron algoritmos, es decir programas automáticos, para la detección de nombres propios que identifiquen a los Actores. Se decidió detectar nombre propios de forma aproximada usando la aparición de mayúsculas como evidencia. De manera similar para las Propiedades involucradas fueron detectadas gracias a una lista predefinida de adjetivos españoles. Las Acciones fueron detectadas usando una lista predefinida de verbos españoles. Finalmente luego de filtrar palabras sin contenido semántico en el lenguaje español se clasificaron las palabras sobrantes, presumiblemente sustantivos, como Temas dentro del corpus.

Un objetivo del proyecto era utilizar todos estos elementos categorizados y extraídos del texto para armar una red compleja. Elegimos relacionar de manera binaria, es decir de a pares, los elementos usando el concepto de coocurrencias dentro de algún entorno textual. En nuestro caso medimos la cantidad de coocurrencias consecutivas para nodos dentro de una misma oración. Por ejemplo si dentro del texto aparece la frase "el Ingeniero Perez pertenece al Ministerio Ejemplo" entonces se contabiliza una coocurrencia para "Ingeniero Perez" y "Ministerio Ejemplo". A partir de ahí para armar la red compleja se elije una cota inferior para el número de coocurrencias que son necesarias para la existencia de un vínculo entre cada par de nodos. Por ejemplo para una cota inferior de 20 se obtiene una red con 5904 actores,  401 acciones, 265 propiedades y 11728 temas, conectados por 3359 relaciones binarias. No se incluyó el Plan Integral de Saneamiento y los Anexos en la construcción de redes porque la extracción de actores usando mayúsculas no fue adecuada para estos documentos debido a la gran cantidad de falsos positivos.

Se realizaron visualizaciones de nubes de etiquetas o tag clouds para las distintas categorías de nodos o todas las categorías simultaneamente. El tamaño es proporcional a la cantidad de ocurrencias de los nodos en el corpus completo. También se realizaron visualizaciones de la red extraída filtrando por algún número mínimo de coocurrencias, y gráficos de redes donde se ven la importancia de algunos nodos y de las relaciones medidas en ocurrencias y coocurrencias, respectivamente. Muchos de los resultados son abstractos y heurísticos pero también son concretos en el sentido que pueden ayudar a navegar la información disponible de manera alternativa, ya que las coocurrencias existen en un lista de documentos públicos concretos.

Conclusiones

Se logró una primera aproximación a la extracción automática de relaciones entre elementos de un corpus textual de un  sitio web de información pública gubernamental. Las herramientas desarrolladas lograron suficiente flexibilidad para ser adaptadas a otros sitios con  información pública o a cualquier búsqueda en la web. Las categorías predefinidas que se diferenciaron fueron: actores, acciones, propiedades y temas. Los resultados y herramientas del proyecto están disponibles en Internet de manera abierta (10). Posible trabajo futuro puede ser incluir herramientas de reconocimiento óptico de caracteres para procesar documentos impresos en papel, mejorar la extracción de nodos del texto usando herramientas más avanzadas de minería de texto, por ejemplo aprendizaje de patrones, y estudiar otras formas de procesar los datos, por ejemplo  aglomerando los nodos en diferentes categorías no predefinidas. También queda pendiente la construcción de un sitio web para navegar la información usando las relaciones extraídas entre los elementos disponibles. Este  último sitio también debería mostrar información sobre documentos, actores y redes no gubernamentales pero relacionados a la problemática, aprovechando la totalidad de los datos disponibles públicamente.

Referencias

(1) http://es.wikipedia.org/wiki/Minería_de_datos

(2) http://es.wikipedia.org/wiki/Minería_de_textos

(3) http://es.wikipedia.org/wiki/Análisis_de_redes

(4) El Derecho de Libre Acceso a la Información en el Derecho Público Argentino. Fundación Ambiente y Recursos Naturales. http://www.farn.org.ar/docs/p23/capa4_2.html

(5) ¿Porqué es importante la transparencia? Portal Oficial del Gobierno Argentino. http://www.argentina.gov.ar/argentina/portal/paginas.dhtml?pagina=308

(6) ACUMAR http://acumar.gov.ar/

(7) http://en.wikipedia.org/wiki/Pdftotext

(8) http://wagner.pp.ru/~vitus/software/catdoc/

(9) http://acumar.gov.ar/?IdArticulo=8738

(10) Análisis del sitio-archivo de la ACUMAR http://www.assembla.com/spaces/cmr