¿Cómo puedo nave C módulos compilados (por ejemplo, python-Levenshtein) para cada nodo en un Spark clúster?

Sé que me puede enviar los archivos de Python en la Chispa de utilizar una secuencia de comandos de Python independiente (código de ejemplo siguiente):

from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])

Pero en situaciones donde no hay».py’, ¿cómo puedo enviar el módulo?

InformationsquelleAutor mgoldwasser | 2014-07-10

2 Comentarios

  1. 38

    Si usted puede empaquetar su módulo en un .egg o .zip archivo, usted debe ser capaz de enumerar en pyFiles cuando la construcción de su SparkContext (o puede añadir más tarde a través de sc.addPyFile).

    Para librerías de Python que el uso de setuptools, puede ejecutar python setup.py bdist_egg para construir un huevo de distribución.

    Otra opción es instalar la biblioteca de todo el clúster, ya sea mediante el uso de pip/easy_install en cada máquina o mediante el intercambio de una instalación de Python a través de una de todo el clúster del sistema de ficheros (como NFS).

    • Esto funcionó! Yo era capaz de crear el huevo de archivo para el módulo con el comando de arriba, y luego el proceso fue tan simple como agregar el huevo en el archivo de pyFiles parámetro. Cosas interesantes!
    • Cualquier sugerencia en llegar PySpark a instalar .huevo dependencias? Similar a stackoverflow.com/questions/32119225/…
    • si mi *.huevo de archivo depende de otros 3 ª parte de las bibliotecas, en este trabajo así?
    • cómo hacerlo en pyspark 2.0?
    • podría usted, hágamelo saber cómo podemos enviar el .egg_info directorio ? ¿Es lo mismo ?

Dejar respuesta

Please enter your comment!
Please enter your name here