Estoy tratando de ejecutar el MPI y el CUDA de código en un clúster. El código funciona bien en una sola máquina, pero cuando trato de ejecutar en el cluster tengo un error:

error durante la carga de bibliotecas compartidas: libcudart.así.4: no se puede abrir el archivo objeto compartido: No existe el fichero o directorio

He comprobado en mi CAMINO y LD_PATH y se ve bien. Tengo un .bashrc archivo que contiene las siguientes entradas –

export PATH=$PATH:/usr/local/lib:/usr/local/lib/openmpi:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib:/usr/local/lib/openmpi/:/usr/local/cuda/lib

Todas las máquinas tienen la misma instalación de CUDA y OpenMPI.

También tengo en /usr/local/cuda/lib en /etc/ld.así.conf

Alguien me puede ayudar con esto. Este problema es realmente molesto.

Gracias.

  • Lo están utilizando para inicializar el clúster?
InformationsquelleAutor Coder | 2012-05-01

1 Comentario

  1. 5

    Si va a enviar un trabajo por lotes en un clúster, favor de agregar comandos como

    echo $LD_LIBRARY_PATH 
    ldd ./your_app 

    a su secuencia de comandos por lotes. Esto debería ayudar a depurar el problema.

    También asegúrese de que exportar las variables de entorno en mpirun. Por ejemplo, en OpenMPI puede ejecutar el código con

    mpirun -x LD_LIBRARY_PATH ...
    • mpirun -x LD_LIBRARY_PATH soluciona mi problema. Gracias montones. hizo que mi día.

Dejar respuesta

Please enter your comment!
Please enter your name here