Estoy tratando de compilar Apache Spark localmente. La razón de esto es para depurar Chispa métodos, como por ejemplo reducir. En particular, estoy interesado en cómo la Chispa implanta y distribuye Reducir el Mapa de debajo de las mantas como estoy experimentando problemas de rendimiento y creo que ejecutan estas tareas de la fuente es el mejor método de averiguar cuál es el problema.

Así que me han clonado la última de Chispa repo :

git clone https://github.com/apache/spark.git

Chispa que parece ser un proyecto de Maven, así que cuando me lo cree en Eclipse aquí es la estructura :

Cómo construir y ejecutar Scala Chispa localmente

Algunos de la parte superior de las carpetas de nivel también tiene pom archivos :

Cómo construir y ejecutar Scala Chispa localmente

Así que debo ser la construcción de uno de estos sub proyectos ? Son estos pasos correctos para la ejecución de Chispa en contra de un local de la base de código ?

Para ver la Chispa interna, sólo se necesita core. Esto debería ir allí: syndeticlogic.net/?p=311 por CIERTO, SBT es mejor para conseguir una Chispa en marcha y funcionando. También recomiendo el uso de Intellij en lugar de Eclipse.

OriginalEl autor blue-sky | 2014-05-25

1 Comentario

  1. 11

    La construcción de Chispa a nivel local, la respuesta corta:

    git clone [email protected].com:apache/spark.git
    cd spark
    sbt/sbt compile

    Va en detalle en su pregunta, lo que en realidad estamos pidiendo es ‘Cómo depurar una Chispa de la aplicación en Eclipse‘.
    Tener la depuración en Eclipse, usted realmente no necesita para generar la Chispa en Eclipse. Todo lo que necesitas es crear un puesto de trabajo con su Chispa lib dependencia y pedir Maven ‘fuentes’. De esa manera usted puede utilizar el depurador de Eclipse a paso en el código.

    Luego, a la hora de crear la Chispa Contexto, el uso sparkConfig.local[1] como maestro, como:

    val conf = new SparkConf()
          .setMaster("local[1]")
          .setAppName("SparkDebugExample")

    para que todos Chispa interacciones se ejecutan en modo local en un hilo y por lo tanto visible para el depurador.

    Si usted está investigando un problema de rendimiento, recuerde que el Spark es un sistema distribuido, donde la red juega un papel importante. Depurar el sistema local le dará sólo una parte de la respuesta. Supervisar el trabajo en el clúster va a ser necesaria a fin de tener un panorama completo de las características de rendimiento de su trabajo.

    Puede usted explicar qué quiere decir con «Todo lo que necesitas es crear un puesto de trabajo con su Chispa lib dependencia y pedir Maven ‘fuentes’.» Actualmente tengo una simple chispa de la aplicación que es similar a la de la Apache Spark sitio web. Me gustaría ejecutar desde dentro de Eclipse, y el paso a través del código, para que yo pueda entrar en el núcleo de la implementación de chispa para tener una idea de cómo funcionan determinadas cosas dentro de Chispa.

    OriginalEl autor maasg

Dejar respuesta

Please enter your comment!
Please enter your name here