Probablemente una pregunta de noob, pero hay una forma de leer el contenido del archivo en hdfs, además de la copia local y la lectura a través de unix?

Así que ahora mismo lo que estoy haciendo es:

  bin/hadoop dfs -copyToLocal hdfs/path local/path

  nano local/path

Me estoy preguntando si puedo abrir un archivo directamente a hdfs lugar de hacer una copia en local y luego de abrirla.

Gracias

InformationsquelleAutor Fraz | 2013-02-17

5 Comentarios

  1. 14

    Si el tamaño del archivo es enorme (que será el caso de la mayoría de las veces), haciendo ‘gato’ no quiere volar tu terminal por tirar todo el contenido de su archivo. En su lugar, utilice la tubería y obtener sólo algunas líneas del archivo.

    Para obtener las 10 primeras líneas del archivo, hadoop fs -cat ‘ruta del archivo’ | head -10

    Para conseguir las últimas 5 líneas del archivo, hadoop fs -cat ‘ruta del archivo’ | tail -5

  2. 1
    1. SSH en su EMR clúster ssh [email protected] -i yourPrivateKey.ppk
    2. Ejecutar este comando /usr/lib/spark/bin/spark-shell --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://yourEmrClusterIpAddress:8020/eventLogging --class org.apache.spark.examples.SparkPi --master yarn --jars /usr/lib/spark/examples/jars/spark-examples_2.11-2.4.0.jar
    3. Lista el contenido del directorio que hemos creado que ahora debe tener un nuevo archivo de registro de la ejecución acabamos de hacer

      [[email protected] bin]$ hdfs dfs -ls /eventLogging
      Encontrado 1 artículos
      -rwxrwx— 1 hadoop hadoop 53409 2019-05-21 20:56 /eventLogging/application_1557435401803_0106

    4. Ahora para ver el archivo a ejecutar hdfs dfs -cat /eventLogging/application_1557435401803_0106

    Recursos:
    https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

Dejar respuesta

Please enter your comment!
Please enter your name here