Version 19, last updated by SylvainPL at May 08, 2010 20:03 UTC

Sur cette page, on va mettre le résumé de nos carnets d'expériences. Quelques précisions:

  • Données train non-sup: les données utilisées dans la phase non-supervisée de l'entraînement du modèle (s'il y a lieu).
  • Données train sup: les données utilisées dans la phase supervisée de l'entraînement du modèle
  • Erreur test NIST: L'erreur du classifieur sur les l'ensemble de test NIST sans transformations
  • Erreur test P0.5:L'erreur du classifieur sur les l'ensemble de test NIST avec des transformations ayant la complexité 0.5

 

    Modèle Données train non-sup
    Données train sup Erreur test NIST
    Erreur test P0.5

     Hyper-paramètres    

     Remarques
    Régression logistique
    N/A          
    Réseau de neurones a une couche
    N/A  NIST  27.72%    lr=0.01, nh=300

    Réseau de neurones a plusieurs couches
    N/A          
    Lenet5  N/A NIST digits
    2.53%
     
    Taille de batch=100                                
    Taux d'apprentissage=0.1
    Taille du filtre couche1=5
    Taille du filtrer couche2=5
    Nombre de features couche1=20
    Nombre de features couche2=80
    Nombre de couches=3
    Nombre d'iterations=10
    Taille de la sigmoide=300
     
    Pile d'encodeurs débruitants  NIST NIST
     22.9%

    Taille de batch = 20
    Niveau de bruit = 20%
    Finetuning lr = 0.01
    Pretraining lr = 0.1
    800 unités cachées / couche
    10 époques de préentraînement / couche
    3 couches cachées

    Pour NIST: 11.8% de meilleure erreur de validation. Aussi, j'ai 21.9% d'erreur de test pour un cas qui n'est pas mon meilleur en terme de validation.
    Pile d'auto-encodeurs débruitants (en utilisant les données transformées) PNIST PNIST 16.727046 %

    93.528750 % (P07)

    27.995000 % (PNIST)

    Taille de batch = 100

    Niveau de bruit = 20%

    Finetune lr = 0.1 et est divisé par 2 à chacune des époques de PNIST 

    pretraining lr = 0.01

    1500 unitées cachées/couche

    15 époques de pretrain

    4 couches cachées

    non-linéarité interne tanh

    non-linéarité de sortie softmax

    336 000 000 exemples vus

    Le modèle a pris 33.9 heures à rouler sur GPU

    Le modèle se trouve à /data/lisa/data/ift6266h10/experiments_SDA/PNIST_gros_softmax_tanh

    Avec un apriori sur la classe demandée, sur NIST, on obtient:

    chiffres: 1.23 %

    minuscules: 9.63 %

    majuscules: 2.71 %

    Pile d'auto-encodeurs débruitants convolutionnels