apache-spark

Cómo guardar la salida de la chispa de la consulta sql en un archivo de texto

Estoy escribiendo un simple consumidor de programa con spark streaming. Mi código de salvar a algunos de los datos en el...

La lectura de los archivos enviados con chispa a presentar por el conductor

Estoy enviando una Chispa de trabajo para que se ejecute en un clúster remoto mediante la ejecución de spark-submit ... --deploy-mode...

¿Cuál es la diferencia entre la chispa de punto de control y persistir en un disco

¿Cuál es la diferencia entre la chispa de punto de control y persistir en un disco. Son estos dos almacenar en...

Pyspark comando no reconocido

He anaconda instalado y también he descargado la Chispa 1.6.2. Estoy usando las siguientes instrucciones de esta respuesta para configurar chispa...

PySpark de difusión de las variables de las funciones locales

Estoy tratando de crear una emisión de variables desde dentro de Python métodos (tratando de resumen de algunos métodos de utilidad...

Mostrando las tablas de base de datos específica con Pyspark y Colmena

Tener algunas bases de datos y tablas en ellos en la Colmena de la instancia. Me gustaría mostrar tablas para algunos...

¿Cómo debo integrar Jupyter notebook y pyspark en Ubuntu 12.04?

Soy nuevo por Pyspark. He instalado "bash Anaconda2-4.0.0-Linux-x86_64.sh" en ubuntu. También se instala pyspark. Todo funcionando bien en la terminal. Quiero...

inferSchema en la chispa de la csv paquete

Cuando CSV se lee como un dataframe en la chispa, todas las columnas se leen de la cadena. Hay alguna forma...

¿Por qué Chispa de trabajo fallar con «demasiados archivos abiertos»?

Me sale "demasiados archivos abiertos" durante la reproducción aleatoria fase de mi Chispa de trabajo. ¿Por qué mi trabajo es abrir...