Tengo un dataframe con 10 millones de registros. ¿Cómo puedo obtener un conteo rápido? df.count es tomar un tiempo muy largo.

2 Comentarios

  1. 9

    Va a tomar mucho tiempo de todos modos. Al menos la primera vez.

    Es una manera de almacenar en caché el dataframe, así que usted será capaz de obtener más con ella, aparte de contar.

    E. g

    df.cache()
    df.count()

    Operaciones posteriores no toma mucho tiempo.

  2. 1
    file.groupBy("<column-name>").count().show()
    • Esto no proporciona una respuesta a la pregunta. Una vez que usted tiene suficiente la reputación usted será capaz de comentario en cualquier post; en su lugar, proporcionar las respuestas que no requieren de aclaraciones a la persona que pregunta. – De Revisión
    • A mí me funcionó
    • No dar respuesta a la pregunta. Su respuesta es utilizando la función de agregación, sin embargo, la pregunta era para acelerar el recuento de registros en general. Aplicando la función de agregación va a hacer el contrario, frenar la consulta
    • Las agregaciones son bastante rápidos en la Chispa.Si esto no ayuda, entonces la única opción que se me ocurre ahora mismo es aumentar la config de chispa del motor.
    • La pregunta era sobre df.count(). Estás tratando de decir df.groupBy("..").count() es más rápido que df.count() ?

Dejar respuesta

Please enter your comment!
Please enter your name here