apache-spark

SparkR vs sparklyr

¿ Alguien tiene una visión general con respecto a las ventajas/desventajas de SparkR vs sparklyr? Google no producen resultados satisfactorios, y...

La división de cadenas en Apache Spark usando Scala

Tengo un conjunto de datos, que contiene las líneas en el formato (separados por tabulaciones): Title<t>Text Ahora, para cada palabra en...

Apache Spark vs Apache Encender

Actualmente estoy estudiando Apache spark y Apache encender marcos. Algunas diferencias principales entre ellos se describen en este artículo encender...

La eliminación de Cadenas en Blanco a partir de una Chispa Dataframe

Intentar eliminar filas en las que una Chispa dataframe columna contiene cadenas en blanco. Originalmente hizo val df2 = df1.na.drop() pero...

¿Cómo puedo obtener un SQL row_number equivalente de una Chispa RDD?

Necesito generar una lista completa de row_numbers para una tabla de datos con muchas columnas. En SQL, este tendría este aspecto:...

¿Cuál es la diferencia entre mapa y flatMap y un buen caso de uso para cada uno de ellos?

Puede que alguien me explique la diferencia entre mapa y flatMap y lo que es un buen caso de uso para...

Cómo crear una tabla como seleccionar en pyspark.sql

Es posible crear una tabla en la chispa mediante una instrucción select? Hago la siguiente import findspark findspark.init() import pyspark from pyspark.sql import...

Apache Spark: El número de núcleos vs el número de ejecutores

Estoy tratando de comprender la relación del número de núcleos y el número de ejecutores cuando se ejecuta una Chispa de...

Calcular los cuantiles de los datos agrupados en la chispa de la Dataframe

Tengo el siguiente Chispa dataframe : agent_id|payment_amount| +--------+--------------+ | a| ...