Version 50, last updated by therm000 at October 07, 2010 16:04 UTC
Cuenca Matanza-Riachuelo (espacio de investigación): Análisis del sitio-archivo de la ACUMAR
-
Aca podran conocer herramientas para analizar el corpus de documentos públicos del espacio urbano llamado Cuenca Matanza-Riachuelo. También se pueden configurar para analizar otros corpora.
Lecturas Introductorias
- Río Matanza-Riachuelo (Wikipedia)
- Autoridad de Cuenca Matanza-Riachuelo (Wikipedia)
- Minería de Datos (Wikipedia)
- Análisis de Redes (Wikipedia)
Corpus Básico (ACUMAR):
Todos lo HTMLs y DOCs y PDFs chicos indexados por Google pasados a TXT y concatenados (hay algunos errores para Ñ y acentos pero no muchos):
- Lista de documentos pasados a TXT: PDFsDOCsHTMLs
- Textos concatenados en un solo archivo: acumar_corpus.txt
- Otros PDFs grandes pasados a TXT: Plan Integral 2010 (original) - Anexo 1 (original) - Anexo 2 (original) - Anexo 3 (original)
Análisis con nubes de palabras o TagClouds
- Todos: Nube1Nube2 (todos los nodos juntos)
- Actores: Nube1Nube2 (nombres propios o cosas en mayúsculas).
- Acciones: Nube1Nube2 (verbos).
- Temas: Nube1Nube2 (sustantivos y otras cosas en minúsculas).
- Atributos: Nube1Nube2 (adjetivos).
Ejemplos:

- Algunas variaciones del la nube de actores y algunas visualizaciones de los segundos y terceros anillos (quitando los top 10 y luego los top 20): http://www.wordle.net/gallery?username=m7red
Publicaciones
Bibliografía Extra
- ¿Porqué es importante la transparencia? Portal Oficial del Gobierno Argentino.
- El Derecho de Libre Acceso a la Información en el Derecho Público Argentino. Fundación Ambiente y Recursos Naturales.
- La ACUMAR presentó plan actualizado de la Cuenca Matanza Riachuelo al Juez de Quilmes. ACUMAR. Diciembre de 2009.
- No se cumplió con lo que ordenó la Corte para sanear el Riachuelo. Diario La Nación. Martes 27 de abril de 2010.
Requerimientos minimos:
- Ubuntu Linux (podría correr en Windows, no fue probado).
- Python 2.6 (debería andar con Python 2.4 y 2.5 también).
- Catdoc para usar corpus_normalization.py con PDFs (se instala con sudo apt-get install catdoc).
- Html2text para usar corpus_normalization.py con DOCs (se instala con sudo apt-get install html2text).
Faltantes:
- No soporta PDFs que no contengan texto digitalizado. Es decir todavía no digitalizamos texto en imagenes con un OCR (Optical Character Recognition).