el servidor tiene la configuración de dos NVIDIA K20m tarjetas, pero con ECC habilitado. He observado que la Volatile GPU-Utilization es alta, el uso de la nvidia-smi -a comando, incluso a través de la no computación de la tarea se ejecuta en la tarjeta. El K20m es utilizado para el cómputo. He buscado en Google, y se comprueban los siguientes enlaces: https://devtalk.nvidia.com/default/topic/539632/k20-with-high-utilization-but-no-compute-processes-/ y https://devtalk.nvidia.com/default/topic/464744/how-to-disable-enable-ecc-on-c2050-/

Parece que el ECC es siempre una mala función, así que siempre es establecido para ser disabled. Así que ¿cuál es el verdadero significado con la ECC? Yo sólo soy un commont los usuarios de ese servidor, así que no tengo el derecho a utilizar el comando nvidia-smi -e 0 para establecer ECC a discapacitados. Es posible para el usuario común para establecer el ECC ser discapacitado?

¿Cuáles son los efectos cuando nos desviamos de la ECC? Cuándo debemos activarlo? y cuando se apague?

InformationsquelleAutor mining | 2014-09-07

1 Comentario

  1. 7

    La GPU utilización puede ser cero cuando se ejecuta nvidia-smi incluso cuando no compute se ejecutan las tareas. Esto no tiene conexión a la ECC.

    ¿Cuál es el verdadero significado con la ECC?

    ECC es Código De Corrección De Errores. No es la única a la Gpu. En GPUs, es una característica que utiliza extra bits de memoria para almacenar la información de error, de modo que si un error (de particular gravedad) se produce en el subsistema de memoria que pueden ser detectados y denunciados o detectados y corregidos.

    Es posible para el usuario común para el conjunto de la ECC a ser discapacitado?

    Desactivación de ECC requiere privilegios de root en linux.

    ¿Cuáles son los efectos cuando nos desviamos de la ECC?

    El ancho de banda disponible, así como el tamaño de la memoria disponible para la GPU de la aplicación puede ser mayor. Si desactiva la ECC y un subsistema de memoria de error se produce, usted recibirá ninguna notificación explícita. El error podría tener cualquier gama de efectos de la ausencia de efecto, para un completo bloqueo de la aplicación, dependiendo de en qué contexto se produjo el error.

    Cuando debemos activarlo? y cuando se apague?

    Vez en cuando se desea la protección contra errores de corrupción de memoria. Desactívela si desea el máximo rendimiento (por ejemplo, para la evaluación comparativa) o usted cree que su aplicación puede tolerar los errores de memoria (por ejemplo, comprobar la validez de los resultados, y no te importa volver a ejecutar una aplicación que falla por algún motivo.)

    • Gracias a usted, señor. De hecho, me acabo de enterar de que si el valatile de la GPU, la utilización es alta, la respuesta del sistema es muy lento. Y cuando me enviarnos un puesto de trabajo en el clúster, el programador de asignar el trabajo en el nodo de computación con Gpu, entonces el proceso se inicia lento. Por eso me pregunto si la configuración es incorrecta. El SDK es CUDA-6.0 y el conductor es que junto con él.
    • He probado en los nodos de cómputo con la Gpu, y se encontró que algunas máquinas tienen una baja respuesta a la solicitud de uso de la GPU, pero los demás están bien. Así que quiero averiguar cuáles son los problemas. Y en un nodo, el lspci muestra dos K20m GPUs han setuped, pero cuando uso el nvidia-smi, dice que no podía encontrar y salida de ‘no se puede determinar el identificador de dispositivo para GPU 0000:81:00.0’. Creo que yo también debería pedir al gerente de la agrupación para ayudar. Gracias!
    • Es posible deshabilitar ECC sin tener una GPU de la tarjeta? Es decir, me estoy construyendo una imagen en una máquina sin una GPU pero cuando uso la imagen, la máquina dispone de una GPU y me gustaría ECC estar deshabilitado en ese punto. Ahora mismo no lo puedo hacer en el tiempo de arranque desde entonces tengo que reiniciar el GPU cuadro.
    • Girando a la ECC de encendido y apagado se debe hacer mediante programación. Normalmente esto significa que la GPU debe estar presente, y tendría que usar la nvidia-smi herramienta de línea de comandos para habilitar o deshabilitar en la GPU en cuestión. Usted puede ser capaz de realizar una función similar en el uso de la NVML de la biblioteca, no he investigado a fondo. Si ese es el caso, entonces podría permitir la compilación de un programa y el uso NVML a su vez ECC de encendido y apagado. Sin embargo, el giro de la ECC y requiere un reinicio, después de que el programa/cambio.
    • Hola @RobertCrovella, tengo otro problema: ¿existen diferencias entre el 2-way SLI con 16x/16x y 2-way SLI con 8x/8x para el aprendizaje profundo de las aplicaciones? En el segundo modo, el rendimiento de la GPU están limitados por el ancho de banda, es correcto? Gracias.
    • SLI no tiene nada que ver con CUDA o profunda de aprendizaje, y, por lo general se recomienda que deshabilite el SLI en CUDA gpu.

Dejar respuesta

Please enter your comment!
Please enter your name here