Por favor alguien puede compartir cómo se puede convertir un dataframe a un RDD?

InformationsquelleAutor Vajra | 2015-09-11

3 Comentarios

  1. 54

    Simplemente:

    val rows: RDD[Row] = df.rdd
    • si aparece el mensaje «no se encontró el tipo» para RDD o Fila, esto podría ayudar a: val rows: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = df.rdd
    • Para ampliar Boern la respuesta, agregue las siguientes dos comandos de importación: la importación de org.apache.chispa.rdd.RDD import org.apache.chispa.sql.Fila
  2. 3

    Uso df.map(row => ...) para convertir el dataframe a un RDD si desea asignar una fila a otra RDD elemento. Por ejemplo

    df.map(row => (row(1), row(2)))

    le da un par de RDD, donde la primera columna de la df es la clave y la segunda columna de la df es el valor.

  3. 2

    Yo estaba buscando mi respuesta y encontré este post.

    Jean respuesta absolutamente correcta,añadiendo que «en el df.rdd» devolverá un RDD[Filas]. Necesito solicitar split (), una vez que RDD. Para que necesitamos para convertir RDD[Fila} para RDD[String]

    val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd

Dejar respuesta

Please enter your comment!
Please enter your name here