Tengo un dataframe con 10 millones de registros. ¿Cómo puedo obtener un conteo rápido? df.count
es tomar un tiempo muy largo.
- ¿Qué es ‘mucho tiempo’? Puede decirnos más acerca de qué y cómo se está tratando a contar?
- Consulte stackoverflow.com/questions/28413423/… y también el
countApprox
método en la chispa si usted no necesita una respuesta exacta. - Estoy tratando como este. df.count()
- Posibles duplicados de Contar el número de filas en un RDD
Va a tomar mucho tiempo de todos modos. Al menos la primera vez.
Es una manera de almacenar en caché el dataframe, así que usted será capaz de obtener más con ella, aparte de contar.
E. g
Operaciones posteriores no toma mucho tiempo.
df.count()
. Estás tratando de decirdf.groupBy("..").count()
es más rápido quedf.count()
?