Estoy interesado en averiguar cómo la recientemente publicada (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Colmena compara a HBase en términos de rendimiento. La interfaz de SQL utilizado por Colmena es muy preferible a la HBase API que hemos implementado.

InformationsquelleAutor mrhahn | 2008-08-23

7 Comentarios

  1. 49

    Es difícil encontrar mucho acerca de la Colmena, pero he encontrado esto fragmento de en la sección del sitio que se apoya fuertemente en favor de HBase (negrita añadida):

    Colmena está basada en Hadoop, que es un sistema de procesamiento por lotes. En consecuencia, este sistema no y no puede prometer bajas latencias en las consultas de. Aquí el paradigma es estrictamente de la presentación de los trabajos y a la notificación de la finalización de trabajos en contraposición a tiempo real las consultas. Como resultado de ello, no debe ser comparado con sistemas como Oracle, donde se hace el análisis en una significativamente menor cantidad de datos, pero el análisis procede mucho más de forma iterativa con los tiempos de respuesta entre las iteraciones a menos de un par de minutos. Para consultas de Hive los tiempos de respuesta para incluso el más pequeño de los puestos de trabajo puede ser del orden de 5 a 10 minutos y para los trabajos más grandes, incluso, puede ejecutar en horas.

    Desde HBase y HyperTable son todos acerca del rendimiento (estar inspirada en Google BigTable), que suenan como que sin duda sería mucho más rápido que el de la Colmena, en el costo de la funcionalidad y una mayor curva de aprendizaje (por ejemplo, no tienen une o la sintaxis parecida a SQL).

  2. 11

    Desde una perspectiva, la Colmena consta de cinco componentes principales: un SQL-como la gramática y el analizador, un planificador de consultas, un motor de ejecución de consultas, un repositorio de metadatos, y una columnar diseño de almacenamiento. Su enfoque principal es el almacén de datos al estilo de las cargas de trabajo analíticas, de modo de baja latencia de recuperación de valores de clave no es necesaria.

    HBase tiene su propio repositorio de metadatos y columnas de diseño de almacenamiento. Es posible autor HiveQL consultas sobre HBase tablas, lo que permite HBase para tomar ventaja de la Colmena de la gramática y el analizador, el planificador de consultas, y el motor de ejecución de consultas. Ver http://wiki.apache.org/hadoop/Hive/HBaseIntegration para obtener más detalles.

  3. 8

    La colmena es una herramienta de análisis. Como cerdo, que fue diseñado ad hoc para el procesamiento por lotes de potencialmente enorme cantidades de datos mediante el aprovechamiento de reducir el mapa. Creo que terrabytes. Imagínese tratando de hacer que en una base de datos relacional…

    HBase es una columna en función del valor de la clave de la tienda con sede en BigTable. Usted no puede hacer consultas por sí, aunque puede ejecutar mapa de reducir puestos de trabajo de más de HBase. Es el caso de uso principal es la recuperación de filas por clave, o escanear rangos de filas. Una característica importante es ser capaz de tener la situación de los datos cuando la exploración a través de los rangos de la fila de teclas para una «familia» de las columnas.

  4. 5

    A mi humilde conocimiento, la Colmena es más comparable a la de Cerdo. La colmena es similar a SQL y Cerdo está basado en script.
    Colmena parece ser más complicado con la optimización de la consulta y la ejecución de los motores así como requiere el usuario final necesita especificar el esquema de parámetros(partición etc).
    Ambos están pensados para procesar archivos de texto, o sequenceFiles.

    HBase es para el valor de la clave del almacén de datos y recuperar…puede escanear o filtro en los principales pares de valores(filas). No se puede hacer consultas en (clave,valor) filas.

  5. 3

    Como de la más reciente de la Colmena de prensa, ha cambiado mucho, que requiere de una pequeña actualización como Colmena y HBase están ahora integrados. Lo que esto significa es que la Colmena puede ser utilizado como una capa de consulta a un HBase almacén de datos. Ahora bien, si la gente está buscando alternativas HBase interfaces, Cerdo también ofrece una forma muy agradable de carga y almacenamiento de datos HBase. Además, parece que Cloudera Impala puede ofrecer sustanciales en el rendimiento de la Colmena base de las consultas en la parte superior de HBase. Son reclamación hasta 45x más rápido consultas más tradicionales de la Colmena de las configuraciones.

  6. 3

    Colmena y HBase se utilizan para diferentes propósito.

    De la colmena:

    Pros:

    1. Apache Hive es un almacén de datos de la infraestructura de construido en la parte superior de Hadoop.
    2. Permite consultar los datos almacenados en HDFS para el análisis a través de HQL, un lenguaje SQL, la cual será convertida en serie de Mapa de Reducir Puestos de trabajo
    3. Sólo se ejecuta procesos por lotes en Hadoop.
    4. es JDBC compatible con, también se integra con las existentes basadas en SQL herramientas
    5. Colmena apoya particiones
    6. Es compatible con analítica en las consultas de datos recogidas durante un período de tiempo

    Contras:

    1. Que actualmente no admite la actualización de las declaraciones
    2. Éste debe estar dotado de un esquema predefinido para el mapa de ficheros y directorios en columnas

    HBase:

    Pros:

    1. Una solución escalable, base de datos distribuida que soporta el almacenamiento de datos estructurados para tablas grandes
    2. Proporciona al azar, en tiempo real acceso de lectura/escritura a su Big Data. HBase operaciones se ejecutan en tiempo real en su base de datos en lugar de trabajos de MapReduce
    3. es compatible con particiones a las tablas, y las mesas son más dividida en la columna familias
    4. Escalas horizontal con gran cantidad de datos mediante el uso de Hadoop
    5. Proporciona la clave de acceso a los datos cuando el almacenamiento o la recuperación. Es admite agregar o actualizar filas.
    6. Apoya versoning de datos.

    Contras:

    1. HBase consultas están escritos en un lenguaje personalizado que necesita ser aprendido
    2. HBase no es totalmente compatible con ÁCIDO
    3. Que no puede ser usado con complicados patrones de acceso (tales como combinaciones)
    4. Tampoco es un completo sustituto de HDFS al hacer grandes lotes de MapReduce

    Resumen:

    De la colmena puede ser utilizado para las consultas analíticas mientras HBase en tiempo real de consulta. Los datos pueden incluso ser leída y escrita de la Colmena a HBase y de vuelta otra vez.

    • La colmena-0,14 y encima es el ÁCIDO queja.
  7. 0

    Para comparar la Colmena con Hbase, me gustaría recordar la siguiente definición:

    Una base de datos diseñada para manejar las transacciones no está diseñado para manejar
    analytics. No está estructurado para hacer analytics bien. Un almacén de datos,
    por otro lado, está estructurado para hacer analytics fácil y rápido.

    La colmena es un almacén de datos de la infraestructura construida en la parte superior de Hadoop, que es adecuado para grandes ETL en ejecución de los trabajos.
    Hbase es una base de datos diseñada para controlar en tiempo real las transacciones

Dejar respuesta

Please enter your comment!
Please enter your name here