Debemos hacer el aprendizaje de la tasa de decaimiento de adán optimizador

Estoy formación de una red para la localización de la imagen con Adán optimizador, y alguien me sugieren el uso de decaimiento exponencial. No quiero probar eso, porque Adán optimizador de sí mismo decae el ritmo de aprendizaje. Pero que chico insiste y dijo que lo hizo antes. Así que debo hacerlo y es allí cualquier teoría detrás de tu sugerencia?

InformationsquelleAutor meng lin | 2016-09-15

4 Kommentare

  1. 65

    Depende. ADAM actualizaciones de cualquier parámetro con un individuo ritmo de aprendizaje. Esto significa que todos los parámetros en la red tienen una tasa de aprendizaje asociados.

    Pero la única tasa de aprendizaje para el parámetro se calcula utilizando lambda (la inicial de la tasa de aprendizaje) como límite superior. Esto significa que cada aprendizaje de la tasa puede variar de 0 (sin actualización) a lambda (máxima de actualización).

    El aprendizaje de las tasas de adaptarse durante tren pasos, es cierto, pero si usted quiere estar seguro de que cada actualización de paso no exceda de lambda puede que a los más bajos lambda uso de decaimiento exponencial o lo que sea.
    Puede ayudar a reducir la pérdida durante el último paso de la formación, cuando la calculada con la pérdida de la asociada previamente parámetro lambda ha dejado de disminuir.

  2. 30

    En mi experiencia, normalmente no es necesario hacer el aprendizaje de la tasa de decaimiento con Adán optimizador.

    La teoría es que Adam ya gestiona el aprendizaje de la tasa de optimización (verificación de referencia) :

    «Proponemos Adam, un método para la eficiencia estocásticos de optimización que
    sólo requiere de primer orden en los gradientes con poca memoria requisito.
    El método calcula individuales de aprendizaje adaptativo de las tasas de para diferentes
    los parámetros a partir de las estimaciones de primer y segundo momentos de la
    degradados; el nombre de Adam se deriva de adaptación momento de la estimación.»

    Como con cualquier aprendizaje profundo problema YMMV, de un solo tamaño no sirve para todos, usted debe probar diferentes enfoques y ver lo que funciona para usted, etc. etc.

  3. 8

    Sí, absolutamente. Desde mi propia experiencia, es muy útil a Adán con el aprendizaje de la tasa de decaimiento. Sin caries, usted tiene que fijar una muy pequeña tasa de aprendizaje por lo que la pérdida no comienzan a divergir después de la disminución a un punto. Aquí, he puesto el código para el uso de Adam con el aprendizaje de la tasa de decaimiento de usar TensorFlow. Espero que sea útil para alguien.

    decayed_lr = tf.train.exponential_decay(learning_rate,
                                            global_step, 10000,
                                            0.95, staircase=True)
    opt = tf.train.AdamOptimizer(decayed_lr, epsilon=adam_epsilon)
  4. 2

    Adam tiene un solo ritmo de aprendizaje, pero es una máxima velocidad que es adaptable, así que no creo que muchas personas que utilizan la tasa de aprendizaje de la programación con ella.

    Debido a la naturaleza adaptativa de la tasa predeterminada es bastante robusto, pero puede haber ocasiones en las que desea optimizar. Lo que puedes hacer es encontrar una óptima tasa predeterminada de antemano, comenzando con una muy pequeña y el incremento de hasta la pérdida deja de reducir, a continuación, busque en la pendiente de la curva de pérdida y coger el ritmo de aprendizaje que se asocia con la mayor disminución en la pérdida (no es el punto donde la pérdida es en realidad el más bajo). Jeremy Howard menciona esto en el ayuno.ai profundo de aprendizaje del curso y su de el ciclo de las Tasas de Aprendizaje de papel.

    Edición: la Gente tiene bastante recientemente comenzó a utilizar un ciclo de aprendizaje de la tasa de políticas en conjunto con Adam con grandes resultados.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Pruebas en línea