Estoy tratando de configurar Apache Spark en Windows.

Después de buscar un poco, entiendo que el modo independiente es lo que yo quiero.
Que los binarios puedo descargar para ejecutar Apache spark en windows? Veo distribuciones de hadoop y cdh en la chispa de descarga de la página.

No tengo referencias en la web para esto. Una guía paso a paso para esto es altamente apreciado.

InformationsquelleAutor Siva | 2014-08-25

10 Comentarios

  1. 31

    He encontrado la solución más fácil en Windows es construir desde el código fuente.

    Prácticamente se puede seguir esta guía: http://spark.apache.org/docs/latest/building-spark.html

    Descargar e instalar Maven, y establecer MAVEN_OPTS el valor especificado en la guía.

    Pero si sólo estás jugando con Chispa, y en realidad no necesita que se ejecute en Windows por cualquier otra razón que su equipo está ejecutando Windows, me gustaría sugerir fuertemente instalar Chispa en una máquina virtual linux. La forma más sencilla de empezar es probablemente para descargar el ready-made imágenes realizadas por Cloudera o Hortonworks, y utilizar el paquete de la versión de Spark, o instalar desde el código fuente o los binarios compilados puede obtener a partir de la chispa sitio web.

    • Enlace ya no funciona. Por favor, actualice.
    • Gracias por el heads up. Enlace fijo.
    • Hola, Mi Compilación en windows funciona bien con Cygwin pero cuando voy a ejecutar el comando ./start-master.sh en el sbin directorio me sale el error Error: no se Pudo encontrar o carga principal de la clase org.apache.chispa.el lanzador.Un completo registro en /cygdrive/c/Spark/spark-1.5.1/sbin/../logs/spark-unusuario-org.apache.chispa.implementar.maestro.Master-1.host
    • La virtualización se puede lograr con virtualbox.org en windows
    • ics.uci.edu/~shantas/Install_Spark_on_Windows10.pdf probar este enlace
    • Hola Yashpal, he intentado eso, pero me quedé atrapado en el paso 5 (winutils). Soy incapaz de copiar esos archivos a mi directorio bin.

  2. 133

    Pasos para instalar Chispa en modo local:

    1. Instalar Java 7 o posterior.
      A prueba de instalación de java es completa, abra el símbolo del sistema, escriba java y pulse enter.
      Si recibe un mensaje de 'Java' is not recognized as an internal or external command. que Usted necesita para configurar las variables de entorno, JAVA_HOME y PATH para que apunte a la ruta del jdk.

    2. Descargar e instalar Scala.

      Conjunto SCALA_HOME en Control Panel\System and Security\System goto «Adv configuración del Sistema» y agregar %SCALA_HOME%\bin en la variable PATH de las variables de entorno.

    3. Instalar Python 2.6 o posterior de Python enlace de Descarga.

    4. Descargar SBT. Instalar y configurar SBT_HOME como una variable de entorno con valor como <<SBT PATH>>.
    5. Descargar winutils.exe de HortonWorks repo o repositorio git. Ya que no tenemos un local de Hadoop instalación en Windows tenemos para descargar winutils.exe y colocarlo en un bin directorio creado en virtud de un Hadoop directorio de inicio.
      Conjunto de HADOOP_HOME = <<Hadoop home directory>> en la variable de entorno.
    6. Estaremos utilizando un pre-construido Spark paquete, así que elige una Chispa de pre-paquete construido para Hadoop Chispa de descarga. Descargar y extraer de ella.

      Conjunto SPARK_HOME y agregar %SPARK_HOME%\bin en la variable PATH de las variables de entorno.

    7. Ejecutar el comando: spark-shell

    8. Abrir http://localhost:4040/ en un navegador para ver el SparkContext la interfaz de usuario web.

    • Gran guía de los que no requiere de ningún local de compilación.
    • gracias, muy suave que era!
    • Me sale «de java.lang.IllegalArgumentException: Error al crear instancias de ‘org.apache.chispa.sql.la colmena.HiveSessionState'». Necesito un paso adicional para la instalación de la colmena?
    • href=»http://stackoverflow.com/questions/42264695/installing-spark-on-windows-10-spark-hive-hivesessionstate#42290821″ title=»instalación de chispa en windows 10 chispa de la colmena hivesessionstate%2342290821″>stackoverflow.com/questions/42264695/…
    • Eso es muy útil, gracias. También, si alguien tiene error que dice «no se pudo encontrar la chispa frascos de directorio» en la ejecución de chispa-shell, asegúrese de que no hay ningún espacio en su SPARK_HOME camino. Luchó en esto por mucho tiempo.
    • Este es el oro, a la derecha aquí. No puedo explicar cuánto problemas que he tenido con la Chispa y la Scala de Windows. Probé por primera vez el Windows Ubuntu Bash. No es una buena idea! Tal vez, si tienes el último de los creadores de actualización (Ubuntu 16), pero de lo contrario hay un montón de errores y problemas de la red.
    • ¿necesita necesariamente jdk? o es jre suficiente?
    • JRE es suficiente para ejecutar el código. Si se quiere desarrollar en java, a continuación, JDK.
    • También parece que no funciona con Java 9 actualmente produce un montón de advertencias y «no se pudo inicializar compilador: objeto java.lang.Objeto compilador espejo no encontrado». Parece que funciona si se va a volver a Java 8
    • Sólo se necesita winutils estar en CAMINO de Chispa para trabajar en windows (como se mencionó en el paso 5). Usted puede guardar en una carpeta diferente o en la Chispa de la carpeta y añadir que la ruta de acceso a la variable de entorno HADOOP_HOME. Si usted se enfrentan a problemas, hacer post otra pregunta.
    • Java 9 de apoyo sigue siendo un «trabajo en progreso» a partir de hoy.
    • Yo estaba tratando de pyspark en windows. Este sugiere poner winutils en SPARK_HOME\bin solo. Y hacer HADOOP_HOME punto para el mismo directorio que SPARK_HOME. Está bien? ¿Qué le sugiere?
    • Puede usted explicar la necesidad o la función de la winutils.exe archivo? Es una parte oficial de la Hadoop código? ¿Qué hacer? etc
    • También, parece que la Chispa de la sbin carpeta solo tiene secuencias de comandos diseñado para su uso con *nix entornos. ¿Puedo descargar el código incorrecto?
    • en cuanto a tu winutil y la versión de java es la derecha, la chispa descargado debe trabajar.
    • Es una buena práctica para hacer que la CASA variables seleccione la carpeta que contiene bin y otros directorios y, a continuación, añadir HOME/bin a la RUTA. Sería el trabajo, incluso si usted sólo tiene que colocar la ruta de acceso del directorio bin en la RUTA.
    • Estoy recibiendo este Error: no se Pudo encontrar o carga principal de la clase org.apache.chispa.el lanzador.Principal
    • post como una cuestión junto con los detalles.
    • Estos pasos se supone que se podría utilizar Scala así como Python. Se deben? Tengo mis programas en R, y sería ideal como el uso de ellos.
    • Esto es genial. Gracias.

  3. 20

    Puede descargar chispa desde aquí:

    http://spark.apache.org/downloads.html

    Te recomiendo esta versión: Hadoop 2 (HDP2, CDH5)

    Desde la versión 1.0.0 hay .cmd la ejecución de los scripts chispa en windows.

    Desempaque con 7zip o similar.

    Para comenzar se puede ejecutar /bin/spark-shell.cmd –maestro local[2]

    Para configurar su ejemplo, usted puede seguir este enlace: http://spark.apache.org/docs/latest/

    • lo que hadoop alternativa sugeriría usted? Me refiero a algo que también podemos instalar en nuestro Pc con windows. Redis?
  4. 17

    Puede utilizar las siguientes formas de instalación de Chispa:

    • De construcción de la Fuente
    • Utilizando prediseñadas de liberación

    Aunque hay varias maneras de construir Chispa de la Fuente.

    Primero he intentado con la construcción de la Chispa de la fuente con SBT, pero que requiere de hadoop. Para evitar esos problemas, he usado pre-construido de liberación.

    Lugar de Origen,he descargado Prediseñadas de liberación para hadoop 2.x versión y corrió.
    Para esto usted necesita para instalar Scala como requisito previo.

    Me han cotejado todos los pasos aquí :

    Cómo ejecutar Apache Spark en Windows7 en modo independiente

    Espero que te ayude..!!!

    • funciona como un encanto
    • Trabajó mucho. gracias.
  5. 8

    Tratando de trabajar con chispa-2.x.x, la construcción de Chispa código fuente no funciona para mí.

    1. Así que, aunque yo no lo voy a usar Hadoop, he descargado el pre-construido Chispa con hadoop incrustadas : spark-2.0.0-bin-hadoop2.7.tar.gz

    2. Punto SPARK_HOME en el directorio extraído, a continuación, añadir a PATH: ;%SPARK_HOME%\bin;

    3. Descargar el ejecutable winutils de la Hortonworks repositorio, o desde Amazon AWS plataforma winutils.

    4. Crear un directorio donde se coloque el archivo ejecutable winutils.exe. Por ejemplo, C:\SparkDev\x64. Añadir la variable de entorno %HADOOP_HOME% que apunta a este directorio, a continuación, añadir %HADOOP_HOME%\bin a la RUTA.

    5. Utilizando la línea de comandos, crear el directorio:

      mkdir C:\tmp\hive
      
    6. Usando el ejecutable descargado, agregar todos los permisos para el archivo de directorio creado, pero el uso de la unixian formalismo:

      %HADOOP_HOME%\bin\winutils.exe chmod 777 /tmp/hive
      
    7. Escriba la siguiente línea de comandos:

      %SPARK_HOME%\bin\spark-shell
      

    Scala entrada de línea de comandos debe ser demostrado de forma automática.

    Comentario : Que no es necesario configurar la Scala por separado. Es built-in también.

  6. 3

    He aquí las revisiones para ejecutarlo en Windows sin necesidad de recompilar todo – como si usted no tiene una versión reciente de MS-VS. (Usted necesitará una Win32 compilador de C++, pero se puede instalar MS VS Community Edition de forma gratuita.)

    He intentado esto con Chispa 1.2.2 y mahout 0.10.2 así como con las versiones más recientes en noviembre de 2015. Hay una serie de problemas, incluyendo el hecho de que la Scala código intenta ejecutar un script en bash (mahout/bin/mahout) que no funciona, por supuesto, la sbin secuencias de comandos no se han portado a windows, y el winutils faltan si hadoop no está instalado.

    (1) Instalar scala, a continuación, descomprima chispa/hadoop/mahout en la raíz de C: bajo sus respectivos nombres de los productos.

    (2) cambiar el nombre de \mahout\bin\mahout a mahout.sh.fue (no se necesita)

    (3) Compilar el siguiente Win32 programa de C++ y copiar el ejecutable en un archivo llamado C:\mahout\bin\mahout (eso es correcto – no .exe sufijo, como un ejecutable de Linux)

    #include "stdafx.h"
    #define BUFSIZE 4096
    #define VARNAME TEXT("MAHOUT_CP")
    int _tmain(int argc, _TCHAR* argv[]) {
        DWORD dwLength;     LPTSTR pszBuffer;
        pszBuffer = (LPTSTR)malloc(BUFSIZE*sizeof(TCHAR));
        dwLength = GetEnvironmentVariable(VARNAME, pszBuffer, BUFSIZE);
        if (dwLength > 0) { _tprintf(TEXT("%s\n"), pszBuffer); return 0; }
        return 1;
    }
    

    (4) Crear la secuencia de comandos \mahout\bin\mahout.bat y pegar en el contenido de abajo, aunque los nombres exactos de los tarros en el _CP rutas de acceso de clase dependerá de las versiones de chispa y mahout. Actualización de las rutas de acceso por su instalación. Uso 8.3 nombres de ruta sin espacios. Tenga en cuenta que usted no puede utilizar caracteres comodín/asteriscos en las rutas de clases aquí.

    set SCALA_HOME=C:\Progra~2\scala
    set SPARK_HOME=C:\spark
    set HADOOP_HOME=C:\hadoop
    set MAHOUT_HOME=C:\mahout
    set SPARK_SCALA_VERSION=2.10
    set MASTER=local[2]
    set MAHOUT_LOCAL=true
    set path=%SCALA_HOME%\bin;%SPARK_HOME%\bin;%PATH%
    cd /D %SPARK_HOME%
    set SPARK_CP=%SPARK_HOME%\conf\;%SPARK_HOME%\lib\xxx.jar;...other jars...
    set MAHOUT_CP=%MAHOUT_HOME%\lib\xxx.jar;...other jars...;%MAHOUT_HOME%\xxx.jar;...other jars...;%SPARK_CP%;%MAHOUT_HOME%\lib\spark\xxx.jar;%MAHOUT_HOME%\lib\hadoop\xxx.jar;%MAHOUT_HOME%\src\conf;%JAVA_HOME%\lib\tools.jar
    start "master0" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.master.Master --ip localhost --port 7077 --webui-port 8082 >>out-master0.log 2>>out-master0.err
    start "worker1" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.worker.Worker spark://localhost:7077 --webui-port 8083 >>out-worker1.log 2>>out-worker1.err
    ...you may add more workers here...
    cd /D %MAHOUT_HOME%
    "%JAVA_HOME%\bin\java" -Xmx4g -classpath "%MAHOUT_CP%" "org.apache.mahout.sparkbindings.shell.Main"
    

    El nombre de la variable MAHOUT_CP no debe ser cambiado, como se hace referencia en el código de C++.

    Por supuesto, usted puede comentar el código que inicia la Chispa maestro y trabajador, porque Mahout se ejecutará Chispa como sea necesario; acabo de poner en el trabajo por lotes para mostrar cómo ejecutarlo si quería utilizar la Chispa sin Mahout.

    (5) El siguiente tutorial es un buen lugar para empezar:

    https://mahout.apache.org/users/sparkbindings/play-with-shell.html
    

    Puede traer el Mahout Chispa ejemplo en:

    "C:\Program Files (x86)\Google\Chrome\Application\chrome" --disable-web-security http://localhost:4040
    
  7. 1

    Aquí hay siete pasos para instalar chispa en windows 10 y de ejecución de python:

    Paso 1: descargar la chispa 2.2.0 tar (tape Archive) gz archivo a cualquier carpeta de F a través de este enlace – https://spark.apache.org/downloads.html. Descomprimir y copiar la carpeta descomprimida en la carpeta deseada A. cambiar el nombre de la chispa-2.2.0-bin-hadoop2.7 carpeta de chispa.

    Vamos camino a la chispa de la carpeta de ser C:\Users\Desktop\A\spark

    Paso 2: descargar el hardoop 2.7.3 tar gz archivo a la misma carpeta de F a través de este enlace – https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz. Descomprimir y copiar la carpeta descomprimida en la misma carpeta A. cambiar el nombre de la carpeta nombre de Hadoop-2.7.3.tar a hadoop.
    Vamos a la ruta a la carpeta de hadoop C:\Users\Desktop\A\hadoop

    Paso 3: Crear un nuevo bloc de notas el archivo de texto. Guardar este vacío archivo de bloc de notas como winutils.exe (con Guardar como tipo: Todos los archivos). Copia de este O KB winutils.exe archivo de la carpeta bin en la chispa de la – C:\Users\Desktop\A\spark\bin

    Paso 4: Ahora, tenemos que añadir estas carpetas para el entorno del Sistema.

    4a: Crear una variable del sistema (el usuario no variable como variable de usuario se heredan todas las propiedades de la variable de sistema) nombre de la Variable: SPARK_HOME
    El valor de la Variable: C:\Users\Desktop\A\spark

    Encontrar la Ruta de la variable de sistema y haga clic en editar. Usted verá varias rutas de acceso. No elimine ninguno de los caminos. Agregar esta variable de valor ;C:\Users\Desktop\A\spark\bin

    4b: Crear una variable del sistema

    Nombre de la Variable: HADOOP_HOME
    El valor de la Variable: C:\Users\Desktop\A\hadoop

    Encontrar la Ruta de la variable de sistema y haga clic en editar. Agregar esta variable de valor ;C:\Users\Desktop\A\hadoop\bin

    4c: Crear un sistema de variable nombre de la Variable: JAVA_HOME
    Búsqueda de Java en windows. Haga clic derecho y haga clic en abrir ubicación de archivo. Usted tendrá que volver a hacer clic derecho sobre cualquiera de los archivos de java y haga clic en abrir ubicación de archivo. Usted va a utilizar la ruta de esta carpeta. O usted puede buscar C:\Program Files\Java. Mi versión de Java instalada en el sistema es jre1.8.0_131.
    El valor de la Variable: C:\Program Files\Java\jre1.8.0_131\bin

    Encontrar la Ruta de la variable de sistema y haga clic en editar. Agregar esta variable de valor ;C:\Program Files\Java\jre1.8.0_131\bin

    Paso 5: Abra el símbolo del sistema y vaya a la chispa de la carpeta bin (tipo cd C:\Users\Desktop\A\spark\bin). Tipo de chispa-shell.

    C:\Users\Desktop\A\spark\bin>spark-shell
    

    Puede tomar tiempo y dar algunas advertencias. Por último, se mostrará
    bienvenido a spark versión 2.2.0

    Paso 6: Escriba exit() o reiniciar el símbolo del sistema y vaya a la chispa de la carpeta bin de nuevo. Tipo de pyspark:

    C:\Users\Desktop\A\spark\bin>pyspark
    

    Se mostrará algunas advertencias y errores pero ignoran. Funciona.

    Paso 7: la descarga se ha completado. Si desea ejecutar directamente chispa de python shell a continuación:
    ir a los Scripts en python su carpeta y escriba

    pip install findspark
    

    en el símbolo del sistema.

    En python shell

    import findspark
    findspark.init()
    

    importar los módulos necesarios

    from pyspark import SparkContext
    from pyspark import SparkConf
    

    Si desea omitir los pasos para la importación de findspark y inicializarla, entonces por favor siga el procedimiento indicado en el
    la importación de pyspark en python shell

  8. 0

    Aquí es una simple secuencia de comandos mínimo para ejecutar desde cualquier consola de python.
    Se supone que se ha extraído la Chispa de librerías que se han descargado en C:\Apache\spark-1.6.1.

    Esto funciona en Windows, sin necesidad de construir algo y resuelve problemas para los que la Chispa se queje recursiva de decapado.

    import sys
    import os
    spark_home = 'C:\Apache\spark-1.6.1'
    
    sys.path.insert(0, os.path.join(spark_home, 'python'))
    sys.path.insert(0, os.path.join(spark_home, 'python\lib\pyspark.zip')) 
    sys.path.insert(0, os.path.join(spark_home, 'python\lib\py4j-0.9-src.zip')) 
    
    # Start a spark context:
    sc = pyspark.SparkContext()
    
    # 
    lines = sc.textFile(os.path.join(spark_home, "README.md")
    pythonLines = lines.filter(lambda line: "Python" in line)
    pythonLines.first()
    
  9. 0

    Cloudera y Hortonworks son las mejores herramientas para que se inicie con el
    HDFS en Microsoft Windows. También puede usar VMWare o VBox para iniciar la Máquina Virtual para establecer construir a su HDFS y Chispa, Hive, HBase, de Cerdo, de Hadoop con Scala, R, Java, Python.

Dejar respuesta

Please enter your comment!
Please enter your name here