Estoy carga de un archivo csv en pyspark de la siguiente manera (dentro de pyspark shell):

>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')

pero estoy recibiendo este error:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'read'
>>> 

Estoy usando chispa 1.3.1 y estoy tratando de usuario chispa-csv

InformationsquelleAutor MedAli | 2015-10-06

1 Comentario

  1. 5

    Usted está tratando de utilizar Spark 1.4+ sintaxis.

    Para Spark 1.3

    from pyspark.sql import SQLContext
    sqlContext = SQLContext(sc)
    
    df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
    df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv")
    • En realidad, yo estoy usando la api de python ejemplo de la chispa-csv módulo, github.com/databricks/spark-csv#python-api. el que se hace uso de la lectura como yo lo estoy haciendo
    • estás tratando de usar Spark 1.4+: sintaxis

Dejar respuesta

Please enter your comment!
Please enter your name here