Mi Dataframe tiene el siguiente aspecto

ID,FirstName,LastName

1,Navee,Srikanth

2,,Srikanth 

3,Naveen,

Ahora Mi Problema es que tengo que quitar la fila número 2, ya que el Primer Nombre es nulo.

Estoy usando por debajo de pyspark script

join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()

Estoy recibiendo el error como

  File "D:
  File "D:\0\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()
\NameValidation.py"
, line 13, in <module> join_Df1= filter(Name.FirstName.isnotnull()).show()

TypeError: ‘Columna’ el objeto no es exigible

Puede alguien por favor que me ayude en esto para resolver

3 Comentarios

  1. 6

    Parece que el DataFrame Nombre tiene valor vacío en lugar Null. A continuación están algunas de las opciones para probar:-

    • Perfecto Rakesh, funcionó. Bien dicho . Gracias de ayuda a la navegación
  2. 0

    Creo que lo que usted pueda necesitar está este notnull().

    Así que esta es tu entrada en el archivo csv my_test.csv:

    El código:

    de salida:

    Esto es lo que te gustaría! df[df['FirstName'].notnull()]

    salida de df['FirstName'].notnull():

    Esto crea un dataframe df donde df['FirstName'].notnull() devuelve True

    Cómo se comprueba? df['FirstName'].notnull() Si el valor de FirstName columna es notnull volver True cosa si NaN está presente retorno False.

Dejar respuesta

Please enter your comment!
Please enter your name here