Anteriores preguntas acerca de este error tiene respuestas diciendo todo lo que usted necesita hacer es actualizar la versión de Spark. Sólo he eliminado de mi versión anterior de Chispa e instalado Chispa 1.6.3 construido para Hadoop 2.6.0.

He intentado esto:

s_df = sc.createDataFrame(pandas_df)

Y tengo este error:

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-8-4e8b3fc80a02> in <module>()
      1 #creating a spark dataframe from the pandas dataframe
----> 2 s_df = sc.createDataFrame(pandas_df)

AttributeError: 'SparkContext' object has no attribute 'createDataFrame'

¿Alguien sabe por qué? He intentado borrar y volver a instalar la misma versión 1.6 pero no funcionó para mí.

Aquí están mis variables de entorno que yo estaba jugando con para obtener mi pyspark para que funcione correctamente:

PATH="/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/usr/X11/bin"
export PATH

# Setting PATH for Python 2.7
# The orginal version is saved in .bash_profile.pysave
PATH="/Library/Frameworks/Python.framework/Versions/2.7/bin:${PATH}"
export PATH

# added by Anaconda installer
export PATH="/Users/pr/anaconda:$PATH"

# path to JAVA_HOME
export JAVA_HOME=$(/usr/libexec/java_home)

#Spark
export SPARK_HOME="/Users/pr/spark" #version 1.6
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_SUBMIT_ARGS="--master local[2]"
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

Hice yo tal vez necesite instalar Hadoop por separado? Me he saltado ese paso porque no lo necesitaba para el código que se ejecuta.

InformationsquelleAutor pr338 | 2016-11-17

2 Comentarios

  1. 18

    SparkContext no tiene, SQLContext tiene:

    from pyspark.sql import SQLContext
    
    sqlContext = SQLContext(sc)
    sqlContext.createDataFrame(pandas_df)
  2. 0

    Tenía que ver este en su documento, utilice SparkSession.

    from pyspark.sql import SparkSession
    sess = SparkSession(sc)
    sess.createDataFrame(pandas_df/rdd, schema)

Dejar respuesta

Please enter your comment!
Please enter your name here