SQLContext objeto no tiene ningún atributo de lectura durante la lectura de csv en pyspark

Estoy carga de un archivo csv en pyspark de la siguiente manera (dentro de pyspark shell):

>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')

pero estoy recibiendo este error:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'read'
>>> 

Estoy usando chispa 1.3.1 y estoy tratando de usuario chispa-csv

InformationsquelleAutor MedAli | 2015-10-06

1 Kommentar

  1. 5

    Usted está tratando de utilizar Spark 1.4+ sintaxis.

    Para Spark 1.3

    from pyspark.sql import SQLContext
    sqlContext = SQLContext(sc)
    
    df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
    df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv")
    • En realidad, yo estoy usando la api de python ejemplo de la chispa-csv módulo, github.com/databricks/spark-csv#python-api. el que se hace uso de la lectura como yo lo estoy haciendo
    • estás tratando de usar Spark 1.4+: sintaxis

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Pruebas en línea