He sido un largo tiempo los usuarios de R y recientemente han comenzado a trabajar con Python. El uso convencional RDBMS sistemas de almacenamiento de datos, y R/Python para la compuadora, siento la necesidad de ensuciar mis manos con el Análisis del Big Data.

Me gustaría saber cómo empezar a trabajar con Big Data crujiendo.
– Cómo iniciar simple con Map/reduce y el uso de Hadoop

  • ¿Cómo puedo aprovechar mis habilidades en R y Python para empezar con el análisis de Big Data. El uso de Python Discoteca proyecto, por ejemplo.
  • El uso de la RHIPE paquete y encontrar el juguete de los conjuntos de datos y las áreas problemáticas.
  • Encontrar el derecho de información que me permita decidir si tengo que mover a NoSQL de RDBMS tipo de bases de datos

Todos en todos, me gustaría saber cómo empezar poco a poco y de forma gradual hasta mis habilidades y conocimientos en Análisis de Big Data.

Gracias por sus sugerencias y recomendaciones.
Me disculpo por el carácter genérico de esta consulta, pero estoy buscando a la ganancia de más de la perspectiva con respecto a este tema.

  • Duras
InformationsquelleAutor harshsinghal | 2010-12-01

2 Comentarios

  1. 29

    Usando Python Discoteca proyecto, por ejemplo.

    Bueno. Jugar con eso.

    El uso de la RHIPE paquete y encontrar el juguete de los conjuntos de datos y las áreas problemáticas.

    Bien. Jugar con eso, también.

    No te preocupes por encontrar «grandes» de los conjuntos de datos. Incluso los pequeños conjuntos de datos presenta muy interesante problemas. De hecho, cualquier conjunto de datos es un punto de inicio.

    Yo una vez construido una pequeña estrella-esquema para analizar los 60 millones de dólares del presupuesto de una organización. La fuente de datos fue en hojas de cálculo, y esencialmente incomprensible. Así que descarga en un esquema de estrella y escribió varios programas analíticos en Python para crear simplificado informes de los números correspondientes.

    Encontrar el derecho de información que me permita decidir si tengo que mover a NoSQL de RDBMS tipo de bases de datos

    Esto es fácil.

    Primero, obtenga un libro sobre el almacenamiento de datos (Ralph Kimball El Almacén de Datos Toolkit) por ejemplo.

    Segundo, el estudio de la «Estrella» Esquema cuidadosamente — especialmente a todas las variantes y casos especiales que Kimball explica (en profundidad)

    Tercer lugar, darse cuenta de los siguientes: SQL es para las Actualizaciones y las Transacciones.

    Al hacer «analítica» de procesamiento (grandes o pequeñas) que casi no hay actualización de cualquier tipo. SQL (y relacionados con la normalización) que realmente no importan mucho más.

    De Kimball punto (y otros también) es que la mayoría de su almacén de datos no está en SQL, es simple de Archivos Planos. Un data mart (ad-hoc, rebanada y dados de análisis) puede estar en una base de datos relacional para permitir una fácil, flexible de procesamiento de SQL.

    Por lo que la «decisión» es trivial. Si es transaccional («OLTP») debe estar en un Relacionales o OO DB. Si es analítico («OLAP») no requiere SQL excepto por rebanada y dados de google analytics; y aun entonces, el DB se carga a partir de los archivos oficiales, según sea necesario.

    • Gracias por tu detallada respuesta. Realmente ayuda.
    • Creo que ante todo debe llegar a la modelo escalable de su procesamiento de datos. Por escalable me refiero a parralel de procesamiento implícito con la sincronización. En otras palabras se dividen en datos independientes de unidades de proceso. Si es posible, Se puede considerar que el poder desea aprovechar. Si desea emplear, digamos, más de 50 núcleos de la cpu, y tienen más de 3 GB por segundo de datos velocidad de lectura – usted debe optar por herramientas de big data como hadoop. Creo que para experimentar Amazon EMR puede ser una muy buena opción.
  2. 1

    Una cosa que usted puede considerar es la DMelt (http://jwork.org/dmelt/) análisis de los datos del programa. Una característica notable es que tiene cientos de ejemplos utilizando el lenguaje Python, y un par de libros. La razón por la que estaba usando es que funciona en mi Windows 10 (ya que se utiliza la máquina virtual de Java), además de que tiene muy buenos gráficos en 2D/3D que pueden ser exportados a los gráficos vectoriales en formato.

    • Bienvenido a Desbordamiento de Pila! Aunque esto, en teoría, puede responder a la pregunta, sería preferible para incluir las partes esenciales de la respuesta aquí, y proporcionar el enlace de referencia.

Dejar respuesta

Please enter your comment!
Please enter your name here