Quiero convertir los valores dentro de una columna a minúsculas. En la actualidad, si yo uso el lower() método, se queja de que los objetos de columna no se puede llamar. Puesto que hay una función llamada lower() en SQL, supongo que hay un nativo Chispa solución que no implique Udf, o la escritura de SQL.

InformationsquelleAutor jkabrg | 2017-11-08

1 Comentario

  1. 18

    De importación lower junto col:

    from pyspark.sql.functions import lower, col

    De ellos se combinan el uso de lower(col("bla")). En una consulta completa:

    spark.table('bla').select(lower(col('bla')).alias('bla'))

    que es equivalente a la consulta SQL

    SELECT col(bla) AS bla FROM bla

    Para mantener el resto de las columnas, hacer

    spark.table('foo').withColumn('bar', lower(col('bar')))

    Huelga decir que este enfoque es mejor que el uso de una UDF porque Udf tiene que llamar a Python (que es una operación lenta, y el propio Python es lento), y es más elegante de la escritura en SQL.

Dejar respuesta

Please enter your comment!
Please enter your name here