Version 50, last updated by therm000 at October 07, 2010 UTC

Cuenca Matanza-Riachuelo (espacio de investigación): Análisis del sitio-archivo de la ACUMAR

-

Aca podran conocer herramientas para analizar el corpus de documentos públicos del espacio urbano llamado Cuenca Matanza-Riachuelo. También se pueden configurar para analizar otros corpora.

Lecturas Introductorias

Corpus Básico (ACUMAR):

Todos lo HTMLs y DOCs y PDFs chicos indexados por Google pasados a TXT y concatenados (hay algunos errores para Ñ y acentos pero no muchos):

Análisis con nubes de palabras o TagClouds

Ejemplos:

      

TagCloud para actions

    

Publicaciones

Bibliografía Extra

Requerimientos minimos:

- Ubuntu Linux (podría correr en Windows, no fue probado).

- Python 2.6 (debería andar con Python 2.4 y 2.5 también).

- Catdoc para usar corpus_normalization.py con PDFs (se instala con sudo apt-get install catdoc).

- Html2text para usar corpus_normalization.py con DOCs (se instala con sudo apt-get install html2text).

Faltantes:

- No soporta PDFs que no contengan texto digitalizado. Es decir todavía no digitalizamos texto en imagenes con un OCR (Optical Character Recognition).