Cuando tenemos un alto grado de polinomio lineal que se utiliza para el ajuste de un conjunto de puntos en una regresión lineal de la instalación, para evitar el sobreajuste, hacemos uso de la regularización, y se incluye un parámetro lambda en la función de costo. Este lambda se utiliza a continuación para actualizar el theta parámetros en el algoritmo de descenso de gradiente.

Mi pregunta es ¿cómo podemos calcular este lambda parámetro de regularización?

InformationsquelleAutor London guy | 2012-08-29

3 Comentarios

  1. 46

    El parámetro de regularización (lambda) es una entrada para tu modelo, por lo que probablemente lo que quiero saber es ¿cómo se seleccione el valor de lambda. El parámetro de regularización reduce el sobreajuste, lo que reduce la varianza del estimado de los parámetros de regresión; sin embargo, esto se hace a expensas de la adición de sesgo para su estimación. El aumento de lambda resultados en menos de sobreajuste, sino también una mayor sesgo. La verdadera pregunta es «¿cuánto sesgo están dispuestos a tolerar en su estimación?»

    Un enfoque que usted puede tomar es al azar submuestra de sus datos un número de veces y mirar la variación en su estimación. A continuación, repita el proceso para que una ligeramente mayor valor de lambda para ver cómo afecta la variabilidad de la estimación. Tenga en cuenta que cualquiera sea el valor de lambda de decidir que es apropiado para su croma de datos, es probable que pueda utilizar un valor más pequeño para lograr comparable regularización en el conjunto de datos completo.

    • ¿Agregar un parámetro de regularización de reducir la varianza de los parámetros? eso no significa que todos serán casi iguales en magnitud? Es que la variación en sus valores de referencia?
    • Sí, se reduce la varianza de los parámetros. Vamos a suponer que usted tiene que K parámetros (a_1,a_2,…,a_K) en su modelo lineal y su tamaño de la muestra es N. De una determinada muestra de tamaño N, se va a calcular los valores a_1 a través de a_k. Si usted fuera a tomar otra muestra aleatoria de tamaño N, el resultado será un conjunto diferente de los coeficientes (a). Si el tamaño de la muestra es pequeño, luego de un determinado coeficiente de reparto (por ejemplo, a_1) puede variar mucho entre las muestras (alta varianza). De regularización, esto reduce la varianza. Esto no significa que todos los coeficientes (a_1 … a_k) será casi igual.
  2. 25

    FORMA CERRADA (TIKHONOV) FRENTE A LA GRADIENTE DE LA PENDIENTE

    Hola! bonito explicaciones para la intuición y de la tapa-muesca enfoques matemáticos allí. Yo sólo quería añadir algunas especificidades que, cuando no la «resolución de problemas», puede sin duda ayudar a acelerar y dar un poco de consistencia en el proceso de encontrar una buena regularización hyperparameter.

    Supongo que estás hablando de la L2 (un.k. «el peso de la corrupción») regularización, de forma lineal ponderada por el lambda plazo, y que son la optimización de los pesos de su modelo con el de forma cerrada Tikhonov ecuación (altamente recomendado para personas de bajos dimensiones de los modelos de regresión lineal), o con alguna variante de gradiente de la pendiente con retropropagación. Y que, en este contexto, usted desea elegir el valor de lambda que proporciona la mejor capacidad de generalización.


    FORMA CERRADA (TIKHONOV)

    Si usted es capaz de ir Tikhonov manera con su modelo (Andrew Ng dice debajo de 10k dimensiones, pero esta sugerencia es, al menos, 5 años de edad) Wikipedia – determinación del factor de Tikhonov ofrece una interesante forma cerrada de la solución, que ha sido probado para proporcionar el valor óptimo. Pero esta solución probablemente se plantea algún tipo de problemas de implementación (tiempo de complejidad numérica/estabilidad) yo no soy consciente de que, debido a que no hay corriente principal algoritmo para realizar. Este 2016 papel se ve muy prometedor y aunque puede ser vale la pena intentarlo si usted realmente tiene que optimizar su modelo lineal a su mejor.

    • Un rápido prototipo de la aplicación, este Dos mil quince paquete de Python parece tratar con él de forma iterativa, usted podría dejar de optimizar y, a continuación, extraer el valor final de la expresión lambda:

    En este nuevo método innovador, que han derivado en un enfoque iterativo para la resolución de la general de la regularización de Tikhonov problema, que converge a la silenciosa solución, no dependen fuertemente de la elección de lambda, y aún así se evita la inversión de problema.

    Y de la GitHub LÉAME del proyecto:
    InverseProblem.invert(A, be, k, l) #this will invert your A matrix, where be is noisy be, k is the no. of iterations, and lambda is your dampening effect (best set to 1)


    GRADIENTE DE LA PENDIENTE

    Todos los enlaces de esta parte son de Michael Nielsen en línea increíble libro «Redes Neuronales y el Aprendizaje Profundo», recomendó la conferencia!

    Para este enfoque parece ser incluso menos que decir: la función de costo es generalmente no convexa, se realiza la optimización numérica y el rendimiento del modelo se mide por alguna forma de validación cruzada (ver El sobreajuste y la Regularización de y ¿por qué la regularización de ayudar a reducir el sobreajuste si no has tenido suficiente de eso). Pero incluso cuando la validación cruzada, Nielsen sugiere algo: es posible que desee echar un vistazo a esta explicación detallada en ¿cómo funciona el L2 de regularización de proporcionar un peso en descomposición efecto, pero el resumen es que es inversamente proporcional al número de muestras n, así que a la hora de calcular el gradiente de la pendiente de la ecuación con el L2 plazo,

    sólo el uso de propagación hacia atrás, como de costumbre, y, a continuación, agregue (λ/n)*w a la derivada parcial de todos los términos de peso.

    Y su conclusión es que, cuando se quiere una similar regularización efecto con un número diferente de muestras, lambda tiene que ser cambiado de forma proporcional:

    tenemos que modificar el parámetro de regularización. La razón es porque el tamaño n del conjunto de entrenamiento ha cambiado de n=1000 a n=50000, y esto cambia el peso de factor de decrecimiento 1−learning_rate*(λ/n). Si continuamos con el uso de λ=0.1 que significaría mucho menos peso caries, y por lo tanto mucho menos de una regularización efecto. Compensamos cambiando a λ=5.0.

    Esto sólo es útil cuando se aplica el mismo modelo para diferentes cantidades de los mismos datos, pero creo que abre la puerta para que algunos intuición sobre cómo debería funcionar, y, lo que es más importante, la velocidad de la hyperparametrization proceso que permite afinar lambda en subconjuntos más pequeños y, a continuación, la escala.

    Para la elección de los valores exactos, se sugiere en sus conclusiones sobre cómo elegir una red neuronal del hyperparameters de lo puramente empírico enfoque: iniciar con 1 y luego, progresivamente, se multiplican&dividir por 10 hasta encontrar el correcto orden de magnitud, y, a continuación, realizar una búsqueda local dentro de la región. En los comentarios de este SE pregunta relacionada con la, el usuario Brian Borchers sugiere también un muy bien conocido método que puede ser útil para que la búsqueda local:

    1. Tomar pequeños subconjuntos de la formación y de los conjuntos de validación (para ser capaz de hacer muchas de ellas en una cantidad razonable de tiempo)
    2. Comenzando con λ=0 y aumentando en pequeñas cantidades en algunas regiones, realizar una rápida formación&validación del modelo y de la trama tanto de la pérdida de funciones
    3. Podrá observar tres cosas:
      1. El CV de la pérdida de la función será sistemáticamente superior a la de la formación de uno, ya que su modelo está optimizado para los datos de entrenamiento exclusivamente (EDIT: Después de algún tiempo he visto un MNIST caso de que la adición de L2 ayudó a la CV pérdida de disminuir más rápido que el entrenamiento hasta la convergencia. Probablemente debido a la ridícula consistencia de los datos y una subóptima hyperparametrization aunque).
      2. La formación de la pérdida de función tendrá a su mínimo para λ=0, y luego aumentar con la regularización, ya que la prevención de la modelo de forma óptima ajuste de los datos de entrenamiento es exactamente lo que la regularización no.
      3. El CV de la pérdida de función de inicio de alta en λ=0, para luego disminuir y, a continuación, empezar a aumentar de nuevo en algún punto (EDIT: esto suponiendo que la instalación es capaz de overfit para λ=0, es decir, el modelo tiene la potencia suficiente y no otros regularización medios son mucho).
    4. El valor óptimo para λ será probablemente en algún lugar alrededor del mínimo de la CV pérdida de la función, también se puede depender un poco sobre cómo funciona el entrenamiento de la función de pérdida aspecto. Ver la foto de un posible (pero no el único) de la representación de esto: en lugar de «la complejidad del modelo» debe interpretar el eje x como λ ser cero a la derecha y a la creciente hacia la izquierda.

    Cómo calcular el parámetro de regularización en la regresión lineal

    Espero que esto ayude! Saludos,

    Andrés

  3. 7

    La cruz de validación descrito anteriormente es un método que se utiliza a menudo en el Aprendizaje de Máquina. Sin embargo, la elección de un servicio fiable y seguro parámetro de regularización es todavía un tema muy candente de la investigación en matemáticas.
    Si usted necesita algunas ideas (y tienen acceso a un decente biblioteca de la universidad) usted puede echar un vistazo a este artículo:
    http://www.sciencedirect.com/science/article/pii/S0378475411000607

    • Y si usted no tiene acceso a una decente biblioteca de la universidad, parece estar disponibles aquí.
    • Gracias por liberadora del conocimiento y la educación. Ha, los sitios web URL del post … más bien Debería ser llamado ScienceIndirect.

Dejar respuesta

Please enter your comment!
Please enter your name here