¿Cuál es la manera «correcta» para establecer el sistema de ruta para Python trabajador nodo? Es una buena idea para los nodos de trabajo para «heredar» sys camino del maestro? Es una buena idea para establecer la ruta de acceso en los nodos de trabajo’ .bashrc? O hay algún estándar Chispa manera de configurarlo?

InformationsquelleAutor user3240688 | 2015-10-06

4 Comentarios

  1. 4

    Una forma estándar de ajuste de las variables ambientales, incluyendo PYSPARK_PYTHON, es el uso de conf/spark-env.sh archivo. Spark viene con un archivo de plantilla ( conf/spark-env.sh.template ), el cual explica las opciones más comunes.

    Es normal en un script de bash así que usted puede utilizarlo de la misma manera como lo haría con .bashrc

    Encontrará más detalles en un La Chispa De La Guía De Configuración.

    • La mayoría de la gente está buscando para hacer algo como esto en spark-env.sh: DIR=»$( cd «$( dirname «${BASH_SOURCE[0]}» )» && pwd )» PYTHONPATH=$PYTHONPATH:$DIR Y no funciona. Probablemente funciona si usted empuje que a todos los nodos de trabajo en algunos de los efectos secundarios de paso. ¿Cuál es el tiempo de ejecución de manera de hacer esto a través de pyspark o chispa a presentar?
    • Fijo aquí? issues.apache.org/jira/browse/SPARK-832 pero no funciona
    • Esta conf configuración hace que el truco de chispa independiente: la chispa.executorEnv.[EnvironmentVariableName]
  2. 0

    Por el siguiente código se puede cambiar el python camino sólo para el trabajo actual, que además de permitir diferentes python ruta de acceso para el conductor y los ejecutores:

        PYSPARK_DRIVER_PYTHON=/home/user1/anaconda2/bin/python PYSPARK_PYTHON=/usr/local/anaconda2/bin/python pyspark --master ..
    
  3. -3

    El error de que mi caso era que:

    Excepción: Python en el trabajador tiene diferente de la versión 2.6 de que en
    controlador de 2.7, PySpark no se puede ejecutar con diferentes versiones menores

    La solución que ayudó:

    export PYSPARK_PYTHON=python2.7
    export PYSPARK_DRIVER_PYTHON=python2.7
    jupyter notebook
    

    De curso, he instalado python2.7 localmente en los trabajadores.

    Supongo que también es importante que yo también establecer la RUTA de acceso.

    Yo no se basan en el local de los trabajadores de la configuración. El camino fue heredado de configuración en el nodo del borde donde se jupyter-notebook.

  4. -3

    Prueba este código:

    sudo apt install python3-pip
    pip3 install jupyter
    jupyter notebook
    sudo apt-get update
    sudo apt-get install default-jre
    java -version
    sudo apt-get install scala
    scala -version
    pip3 install py4j
    export SPARK_HOME='home/ubuntu/spark-2.4.0-bin-hadoop2.7
    export SPARK_HOME='home/ubuntu/spark-2.4.0-bin-hadoop2.7'
    export PATH=$SPARK_HOME:$PATH
    export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
    export PYSPARK_DRIVER_PYTHON="jupyter"
    export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
    export PYSPARK_PYTHON=python3
    chmod 777 spark-2.4.0-bin-hadoop2.7
    sudo chmod 777 spark-2.4.0-bin-hadoop2.7
    cd spark-2.4.0-bin-hadoop2.7/
    cd python/
    jupyter notebook
    //Now you will work on spark using jupyter notebook for python
    

    Y mantente al día con BLEEDBYTES – El lugar donde obtener los bits y los bytes de la tecnología.

Dejar respuesta

Please enter your comment!
Please enter your name here