Version 50, last updated by therm000 at October 07, 2010 16:04 UTC

Cuenca Matanza-Riachuelo (espacio de investigación): Análisis del sitio-archivo de la ACUMAR

-

Aca podran conocer herramientas para analizar el corpus de documentos públicos del espacio urbano llamado Cuenca Matanza-Riachuelo. También se pueden configurar para analizar otros corpora.

Lecturas Introductorias

Corpus Básico (ACUMAR):

Todos lo HTMLs y DOCs y PDFs chicos indexados por Google pasados a TXT y concatenados (hay algunos errores para Ñ y acentos pero no muchos):

Análisis con nubes de palabras o TagClouds

Ejemplos:

      

TagCloud para actions

    

    Publicaciones

    Bibliografía Extra

    Requerimientos minimos:

    - Ubuntu Linux (podría correr en Windows, no fue probado).

    - Python 2.6 (debería andar con Python 2.4 y 2.5 también).

    - Catdoc para usar corpus_normalization.py con PDFs (se instala con sudo apt-get install catdoc).

    - Html2text para usar corpus_normalization.py con DOCs (se instala con sudo apt-get install html2text).

    Faltantes:

    - No soporta PDFs que no contengan texto digitalizado. Es decir todavía no digitalizamos texto en imagenes con un OCR (Optical Character Recognition).