apache-spark-sql

scala.de la colección.mutable.WrappedArray$ofRef no se puede convertir a Entero

Soy bastante nuevo a la Chispa y la Scala. Estoy tratando de llamar a una función como una Chispa UDF pero...

cómo filtrar un valor nulo de chispa dataframe

He creado un dataframe en la chispa con el siguiente esquema: root |-- user_id: long (nullable = false) |-- event_id: long...

La diferencia entre los dos DataFrames columnas en pyspark

Estoy buscando una manera de encontrar la diferencia en los valores, en columna de a dos DataFrame. Por ejemplo: from pyspark.sql...

Cómo guardar la salida de la chispa de la consulta sql en un archivo de texto

Estoy escribiendo un simple consumidor de programa con spark streaming. Mi código de salvar a algunos de los datos en el...

inferSchema en la chispa de la csv paquete

Cuando CSV se lee como un dataframe en la chispa, todas las columnas se leen de la cadena. Hay alguna forma...

La chispa de Error:se esperaba cero argumentos para la construcción de ClassDict (para numpy.núcleo.multiarray._reconstruct)

Tengo un dataframe en la Chispa en la que una de las columnas contiene una matriz.Ahora,he escrito separado UDF que convierte...

TypeError: ‘Columna’ el objeto no es exigible el uso de WithColumn

Me gustaría añadir una nueva columna en dataframe "df" de la función get_distance: def get_distance(x, y): dfDistPerc =...

Agregar una nueva columna a una Dataframe. Nueva columna quiero que sea un UUID generador

Quiero agregar una nueva columna a una Dataframe, un UUID del generador. Valor UUID se verá algo como 21534cf7-cff9-482a-a3a8-9e7244240da7 Mi Investigación:...

pyspark : Convertir DataFrame a RDD[string]

Me gustaría convertir pyspark.sql.dataframe.DataFrame a pyspark.rdd.RDD Me convertí en un DataFrame df a RDD data: data = df.rdd type (data) ## pyspark.rdd.RDD ...