-
Aca podran conocer herramientas para analizar el corpus de documentos públicos del espacio urbano llamado Cuenca Matanza-Riachuelo. También se pueden configurar para analizar otros corpora.
Todos lo HTMLs y DOCs y PDFs chicos indexados por Google pasados a TXT y concatenados (hay algunos errores para Ñ y acentos pero no muchos):
Ejemplos:

- Ubuntu Linux (podría correr en Windows, no fue probado).
- Python 2.6 (debería andar con Python 2.4 y 2.5 también).
- Catdoc para usar corpus_normalization.py con PDFs (se instala con sudo apt-get install catdoc).
- Html2text para usar corpus_normalization.py con DOCs (se instala con sudo apt-get install html2text).
Faltantes:
- No soporta PDFs que no contengan texto digitalizado. Es decir todavía no digitalizamos texto en imagenes con un OCR (Optical Character Recognition).