De la documentación:

Para el bootstrap muestras, muestreo aleatorio simple se utiliza.

Para otros datos, la división, el muestreo aleatorio se realiza dentro de los niveles de y
cuando y es un factor en un intento de equilibrar la clase de las distribuciones dentro de
las divisiones.

Numéricos y, la muestra se divide en grupos de secciones en función de los percentiles
y el muestreo se realiza dentro de estos subgrupos.

Para createDataPartition, el número de los percentiles se establece a través de los grupos
argumento.

No entiendo por qué este «balance», una cosa es necesaria. Creo entender que superficialmente, pero cualquier información adicional que sería realmente útil.

1 Comentario

  1. 11

    Esto significa que, si usted tiene un conjunto de datos ds con 10000 filas

    set.seed(42)
    ds <- data.frame(values = runif(10000))

    con 2 «clases» con una distribución desigual (9000 vs 1000)

    ds$class <- c(rep(1, 9000), rep(2, 1000))
    ds$class <- as.factor(ds$class)
    table(ds$class)
    #    1    2 
    # 9000 1000 

    puede crear una muestra, que intenta mantener la relación /»equilibrio» de la factor clases.

    dpart <- createDataPartition(ds$class, p = 0.1, list = F)
    dsDP <- ds[dpart, ]
    table(dsDP$class)
    #   1   2 
    # 900 100 

Dejar respuesta

Please enter your comment!
Please enter your name here