Version 7, last updated by youssouf at April 19, 2010 06:05 UTC
Carnet sur les autoencodeurs débruitant
Auteur
Tâche
Cette expérience fait réference au ticket: #33.
Motivation pour cette expérience:
- Determiner l'influence des hyperparametres sur l'erreur de généralisation
- verifier l'hypothese suivante: l'erreur de generalisation suit une courbe en U
Modèle avec lequel on a effectué l'expérience: Un autoencodeur débruitant simple, poids liés, avec bruit de masquage stochastique par 0.
Valeurs des hyper-paramètres explorées:
- pas de gradient = [0.001, 0.01, 0.1]
- nombre d'unités par couche = [100, 400, 700]
- complexité du bruit = [0.1, 0.3, 0.5]
Ce qu'on teste:
- l'impact du taux d'apprentissage sur la généralisation, en gardant les autres hyper-paramètres fixes.
- le comportement de l'erreur de généralisation, en fonction de la taille du code et de la complexité du bruit.
- le comportement de l'erreur de généralisation en fonction du nombre d'époque d'apprentissage.
Données utilisées: l'ensemble de la base NIST suivant le protocole de Xavier Muller.
Résultats
meilleur erreur de validation : 121 (erreur moyenne d'entropie croisé par image)
meilleurs paramètres : pas de gradient: 0.1, nombre d'unité par couche: 700, complexité: 0.1
Influence du nombre d'unité [100, 400, 700, 1000, 1500] sur l'erreur: [138.9, 122.9, 121.6, 121.2, 120.9] (avec pas de gradient=0.1 et complexité=0.1).
Influence de la complexité [0.1, 0.3, 0.5] sur l'erreur: [122, 127, 134] (avec pas de gradient=0.1 et nombre unité=400).
Influence du pas de gradient [0.001, 0.01, 0.1, 0.3] sur l'erreur: [128, 123, 122, 123] (complexite=0.1 et nombre unité=400).
temps moyen par job: 6H
temps max par job: 15H
Image des poids pour: pas de gradient 0.3, couche cachée 700, complexité 0.1

Image des poids pour: pas de gradient 0.3, couche cachée 700, complexité 0.5

Emplacement des résultats
- dans la base de donnée ift6266h10_db
- sur gershwin
- dans les tables DA_youssouf1
- le SQL view est DA_youssouf_view
Details pour réproduire les résultats
Code utilisé:
- le code pour les scripts de l'expérience est dans la révision revision:e12702b88a
- avec theano
- jobman
- dbidispatch
Grappe de calcul utilisé: condor au lisa
Commandes utilisées pour lancer les jobs:
jobman sqlschedules postgres://ift6266h10@gershwin/ift6266h10_db/DA_youssouf1 DA_training.experiment\
DA_training.conf 'learning_rate={{0.001,0.01,0.1}}' 'n_code_layer={{100,400,700}}' 'complexity={{0.1,0.3,0.5}}'
dbidispatch --condor --repeat_jobs=9 jobman sql -n 3 'postgres://ift6266h10@gershwin/ift6266h10_db/DA_youssouf1' .