Version 7, last updated by youssouf at April 19, 2010 06:05 UTC

Carnet sur les autoencodeurs débruitant

Auteur

Youssouf Chherawala

Tâche

Cette expérience fait réference au ticket: #33.

Motivation pour cette expérience:

  • Determiner l'influence des hyperparametres sur l'erreur de généralisation
  • verifier l'hypothese suivante: l'erreur de generalisation suit une courbe en U

Modèle avec lequel on a effectué l'expérience: Un autoencodeur débruitant simple, poids liés, avec bruit de masquage stochastique par 0.

Valeurs des hyper-paramètres explorées:

  • pas de gradient = [0.001, 0.01, 0.1]
  • nombre d'unités par couche = [100, 400, 700]
  • complexité du bruit = [0.1, 0.3, 0.5]

Ce qu'on teste:

  • l'impact du taux d'apprentissage sur la généralisation, en gardant les autres hyper-paramètres fixes.
  • le comportement de l'erreur de généralisation, en fonction de la taille du code et de la complexité du bruit.
  • le comportement de l'erreur de généralisation en fonction du nombre d'époque d'apprentissage.

Données utilisées: l'ensemble de la base NIST suivant le protocole de Xavier Muller.


Résultats

meilleur erreur de validation : 121 (erreur moyenne d'entropie croisé par image)

meilleurs paramètres : pas de gradient: 0.1, nombre d'unité par couche: 700, complexité: 0.1

Influence du nombre d'unité [100, 400, 700, 1000, 1500] sur l'erreur: [138.9, 122.9, 121.6, 121.2, 120.9] (avec pas de gradient=0.1 et complexité=0.1).

Influence de la complexité [0.1, 0.3, 0.5] sur l'erreur: [122, 127, 134] (avec pas de gradient=0.1 et nombre unité=400).

Influence du pas de gradient [0.001, 0.01, 0.1, 0.3] sur l'erreur: [128, 123, 122, 123] (complexite=0.1 et nombre unité=400).

temps moyen par job: 6H

temps max par job: 15H

 

Image des poids pour: pas de gradient 0.3, couche cachée 700, complexité 0.1

pas de gradient : 0.3

Image des poids pour: pas de gradient 0.3, couche cachée 700, complexité 0.5

Emplacement des résultats

  • dans la base de donnée ift6266h10_db
  • sur gershwin
  • dans les tables DA_youssouf1
  • le SQL view est DA_youssouf_view


Details pour réproduire les résultats

Code utilisé:

  • le code pour les scripts de l'expérience est dans la révision revision:e12702b88a
  • avec theano
  • jobman
  • dbidispatch

Grappe de calcul utilisé: condor au lisa

Commandes utilisées pour lancer les jobs:

jobman sqlschedules  postgres://ift6266h10@gershwin/ift6266h10_db/DA_youssouf1 DA_training.experiment\
 DA_training.conf 'learning_rate={{0.001,0.01,0.1}}' 'n_code_layer={{100,400,700}}' 'complexity={{0.1,0.3,0.5}}' 
dbidispatch --condor --repeat_jobs=9 jobman sql -n 3 'postgres://ift6266h10@gershwin/ift6266h10_db/DA_youssouf1' .