Soy nuevo en Apache Spark, y acabo de enterarme que el Spark es compatible con tres tipos de cluster:

  • Independiente – significado Chispa a gestionar su propio grupo
  • HILO utilizando Hadoop del HILO administrador de recursos
  • Mesos – Apache dedicado administrador de recursos del proyecto

Ya que soy nuevo en Chispa, creo que debe tratar de Independiente primera. Pero me pregunto cual es el recomendado. Decir, en el futuro necesito construir un gran grupo (cientos de casos), el clúster que tipo debo ir?

InformationsquelleAutor David S. | 2015-02-22

4 Comentarios

  1. 64

    Creo que la mejor respuesta que son los que trabajan en la Chispa. Así, a partir de El Aprendizaje De La Chispa

    De inicio con un solo clúster si esta es una nueva implementación.
    Independiente es el modo más sencillo de configurar y proporcionará casi todos
    las mismas características que el otro grupo administradores si sólo
    ejecución de Chispa.

    Si quieres ejecutar Chispa junto a otras aplicaciones, o para uso
    ricos recursos de capacidades de programación (por ejemplo, colas), tanto en el HILO y
    Mesos proporcionan estas características. De estos, el HILO, es probable que se
    preinstalado en muchas distribuciones de Hadoop.

    Una de las ventajas de Mesos tanto HILO y de modo independiente, es su
    de grano fino opción de uso compartido, que permite a las aplicaciones interactivas, tales
    como la Chispa de la shell de la escala de abajo de su asignación de CPU entre los comandos.
    Esto hace que sea atractivo en entornos donde hay varios usuarios
    ejecución interactiva de conchas.

    En todos los casos, es mejor ejecutar Chispa en los mismos nodos como HDFS para
    rápido acceso al almacenamiento. Usted puede instalar Mesos o el independiente
    el administrador de clúster en el mismo nodos manualmente, o la mayoría de Hadoop
    distribuciones ya instale el HILO y HDFS juntos.

    • «Una de las ventajas de Mesos tanto HILO y de modo independiente, es su grano fino opción de compartir»: de grano fino compartir no es compatible, ya que de Apache Spark 2.0.0
  2. 60

    Chispa Independiente Gerente de : Un simple administrador de clúster incluye con la Chispa que hace que sea fácil para configurar un clúster. Por defecto, cada aplicación utiliza todos los nodos en el clúster.

    Un par de beneficios de HILADO más Independiente & Mesos:

    1. HILO permite dinámicamente compartir y configurar de forma centralizada el mismo grupo de recursos de clúster entre todos los marcos que se ejecutan en HILO.

    2. Usted puede tomar ventaja de todas las características de HILO programadores para la categorización, el aislamiento, y la priorización de las cargas de trabajo.

    3. La Chispa de modo independiente requiere cada aplicación para que se ejecute un ejecutor en cada nodo en el clúster; mientras que con el HILO, puede elegir el número de ejecutores para uso

    4. HILO directamente maneja bastidor de la máquina y la localidad en sus peticiones, que es conveniente.

    5. La solicitud de recursos del modelo es, curiosamente, hacia atrás en el Mesos. En HILO, usted (el marco) solicitud de contenedores con una determinada especificación y dar la localidad preferencias. En Mesos de obtener recursos «ofertas» y elegir aceptar o rechazar aquellos basados en sus propios sistemas de programación de la política. El Mesos modelo es, sin duda, más flexible, pero aparentemente más trabajo para la persona que la implementación del marco.

    6. Si usted tiene un gran clúster Hadoop ya en el lugar, HILO es la mejor opción.

    7. La Independiente gerente de requiere que el usuario configure cada uno de los nodos con el secreto compartido. Mesos‘ default módulo de autenticación, Cyrus SASL, puede ser reemplazado con un módulo personalizado. HILO de la seguridad para la autenticación de nivel de servicio de autorización, autenticación de Web de las consolas y la confidencialidad de los datos. Hadoop utiliza la autenticación de Kerberos para comprobar que cada uno de servicio y usuario es autenticado por Kerberos.

    8. De alta disponibilidad se ofrece por todos racimo de tres gerentes, pero Hadoop HILO no necesita ejecutar por separado un Cuidador de Conmutación por error de Controlador.

    Enlaces útiles:

    spark página de documentación de

    agildata artículo

    • En la tabla no mencionar Mesos. HILO de clúster y el HILO de cliente es confuso.
    • La tabla es incorrecta por Chispa independiente, ya que también admite el «cliente» y «cluster» modos: spark.apache.org/docs/latest/spark-standalone.html
    • Eliminado de la tabla
    • Quitó de menos 🙂
  3. 6

    Independiente es bastante claro mencionados, debe ser utilizado solamente cuando usted tiene chispa únicamente de la carga de trabajo.

    Entre el hilo y mesos, Una cosa a considerar es el hecho de que a diferencia de mapreduce, la chispa de trabajo agarra ejecutores y mantenerla durante toda la vida útil de un puesto de trabajo. donde en un trabajo mapreduce puede obtener y la liberación de mappers y reducers largo de la vida.

    si usted tiene el tiempo corriendo de la chispa de puestos de trabajo que, durante la vida útil de un trabajo no utilizar la totalidad de los recursos que se consiguió en un principio, puede que desee compartir esos recursos a otras aplicaciones y que sólo se puede hacer ya sea a través de Mesos o Chispa de la programación dinámica. https://spark.apache.org/docs/2.0.2/job-scheduling.html#scheduling-across-applications
    Así que con el hilado, la única manera de tener la asignación dinámica de chispa es el uso de la chispa siempre la asignación dinámica. Hilados de no interferir en que mientras Mesos voluntad. De nuevo este punto es importante si usted tiene una larga chispa de la aplicación y le gustaría escalar hacia arriba y hacia abajo de forma dinámica.

  4. -1

    Mesos tiene más sofisticada programación de diseño, permitiendo que aplicaciones como Chispa para negociar con él. Es más adecuado para la diversidad de las aplicaciones de hoy en día. He encontrado este sitio realmente interesantes:

    https://www.oreilly.com/ideas/a-tale-of-two-clusters-mesos-and-yarn

    «… HILO está optimizado para la programación de trabajos de Hadoop, que son históricamente (y aún lo general) trabajos por lotes con largos tiempos de ejecución. Esto significa que el HILO no fue diseñado para tiempo de ejecución de los servicios, ni de corta duración consultas interactivas (como las pequeñas y rápido Chispa de puestos de trabajo), y si bien es posible programar otros tipos de cargas de trabajo, este no es un modelo ideal. La demanda de recursos, modelo de ejecución, y la arquitectura demanda de MapReduce son muy diferentes de los de larga duración de los servicios, tales como servidores web o de aplicaciones SOA, o en tiempo real de las cargas de trabajo como los de la Chispa de la Tormenta…»

Dejar respuesta

Please enter your comment!
Please enter your name here