Puedo leer algunos json-archivos al mismo tiempo usando el * (asterisco):

sqlContext.jsonFile('/path/to/dir/*.json')

Hay alguna forma de hacer la misma cosa para parquet? Estrella no funciona.

OriginalEl autor SkyFox | 2015-05-24

3 Comentarios

  1. 6

    Ver este problema en la chispa de jira. Es compatible a partir de 1.4 en adelante.

    Sin actualizar a la 1.4, se podrían punto en el directorio de nivel superior:

    sqlContext.parquetFile('/path/to/dir/')
    

    que va a cargar todos los archivos en el directorio. Como alternativa, puede utilizar la HDFS API para encontrar los archivos que desea, y pasar a parquetFile (acepta varargs).

    Puedo obtener AttributeError: 'SQLContext' object has no attribute 'parquetFile'

    OriginalEl autor dpeacock

  2. 10

    Para su INFORMACIÓN, usted también puede:

    • leer subconjunto de parquet de archivos mediante el símbolo de comodín * sqlContext.read.parquet("/path/to/dir/part_*.gz")

    • lectura múltiple de parquet archivos especificando explícitamente les sqlContext.read.parquet("/path/to/dir/part_1.gz", "/path/to/dir/part_2.gz")

    Además, también puedes utilizar un hadoop glob patrón o tomar ventaja de la chispa esquema de partición, consulte stackoverflow.com/a/41712465/179014 .

    OriginalEl autor Boris

  3. 2
    InputPath = [hdfs_path + "parquets/date=18-07-23/hour=2*/*.parquet",
                 hdfs_path + "parquets/date=18-07-24/hour=0*/*.parquet"]
    
    df = spark.read.parquet(*InputPath)
    

    OriginalEl autor user6602391

Dejar respuesta

Please enter your comment!
Please enter your name here