AttributeError: ‘SparkContext’ el objeto no tiene ningún atributo ‘createDataFrame’ utilizando la Chispa 1.6

Anteriores preguntas acerca de este error tiene respuestas diciendo todo lo que usted necesita hacer es actualizar la versión de Spark. Sólo he eliminado de mi versión anterior de Chispa e instalado Chispa 1.6.3 construido para Hadoop 2.6.0.

He intentado esto:

s_df = sc.createDataFrame(pandas_df)

Y tengo este error:

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-8-4e8b3fc80a02> in <module>()
      1 #creating a spark dataframe from the pandas dataframe
----> 2 s_df = sc.createDataFrame(pandas_df)

AttributeError: 'SparkContext' object has no attribute 'createDataFrame'

¿Alguien sabe por qué? He intentado borrar y volver a instalar la misma versión 1.6 pero no funcionó para mí.

Aquí están mis variables de entorno que yo estaba jugando con para obtener mi pyspark para que funcione correctamente:

PATH="/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/usr/X11/bin"
export PATH

# Setting PATH for Python 2.7
# The orginal version is saved in .bash_profile.pysave
PATH="/Library/Frameworks/Python.framework/Versions/2.7/bin:${PATH}"
export PATH

# added by Anaconda installer
export PATH="/Users/pr/anaconda:$PATH"

# path to JAVA_HOME
export JAVA_HOME=$(/usr/libexec/java_home)

#Spark
export SPARK_HOME="/Users/pr/spark" #version 1.6
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_SUBMIT_ARGS="--master local[2]"
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

Hice yo tal vez necesite instalar Hadoop por separado? Me he saltado ese paso porque no lo necesitaba para el código que se ejecuta.

InformationsquelleAutor pr338 | 2016-11-17

2 Kommentare

  1. 18

    SparkContext no tiene, SQLContext tiene:

    from pyspark.sql import SQLContext
    
    sqlContext = SQLContext(sc)
    sqlContext.createDataFrame(pandas_df)
  2. 0

    Tenía que ver este en su documento, utilice SparkSession.

    from pyspark.sql import SparkSession
    sess = SparkSession(sc)
    sess.createDataFrame(pandas_df/rdd, schema)

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Pruebas en línea