Cloudera Inc. | |
---|---|
Tipo de | compañía pública |
listado de intercambio | Bolsa de Nueva York : CLDR |
Base | 2009 |
Fundadores |
Christophe Biscilla, Amr Awadalla, Jeffrey Hammerbacher, Michael Olson |
Ubicación | Estados Unidos :Palo Alto |
Figuras claves |
Reilly, Tom (CEO), Doug Cutting (Arquitecto jefe) |
Industria | desarrollo de software ( CIIU :) 6201 |
Productos | Versión comercial de Hadoop , Cloudera Impala |
Rotación | ▲ $301 millones (2018) |
Beneficio operativo | ▼ −$389 millones (pérdida, 2018) |
Beneficio neto | ▼ −$386 millones (pérdida, 2018) |
Capitalización | $ 2.66 mil millones (7 de septiembre de 2018) [1] |
Sitio web | cloudera.com |
Archivos multimedia en Wikimedia Commons |
Cloudera es una empresa estadounidense que desarrolla distribuciones Apache Hadoop y varios productos de software del ecosistema Hadoop .
El modelo comercial de la empresa se ha comparado con el negocio de Red Hat : Cloudera crea distribuciones de productos de software para organizaciones basadas en software libre y obtiene ganancias brindando soporte técnico para las soluciones suministradas [2] [3] . Con el auge de las tecnologías de " big data ", Cloudera ha sido reconocida repetidamente como una de las empresas más prometedoras capaces de resolver problemas en su clase [4] [5] .
En 2018 absorbió al principal competidor en el mercado de distribución de Hadoop, la empresa estadounidense Hortonworks .
La empresa fue fundada en octubre de 2008 en Burlingame ( California ) con un capital inicial de $5 millones, el objetivo principal del negocio era la comercialización del proyecto Hadoop . Los fundadores de la empresa son Christophe Bischiglia , que anteriormente trabajó en Google , Amr Awadallah ( Amr Awadallah , vicepresidente de Yahoo Corporation , responsable de sistemas de análisis y almacenamiento de datos), Jeffrey Hammerbacher ( Jeff Hammerbacher , director de proyectos de Hive en Facebook ) y Michael Olson , vicepresidente de Oracle Corporation , anteriormente director ejecutivo de Sleepecat , que desarrolló y desarrolló Berkeley DB y fue absorbida en 2006 por Oracle) [6] . Hammerbacher organizó la financiación inicial para el proyecto de Accel Partners , y Olson se hizo cargo de la empresa. En total, se recaudaron 11 millones de dólares en la etapa inicial y, además de Accel, Greylock Partners y los inversores informales Gideon Yu y Caterina Fake figuran entre los inversores [ 7 ] .
Entre los empleados contratados en los primeros meses se encontraban los creadores de Hadoop Doug Cutting y Mike Cafarella , ex directores ejecutivos de VMware ( Diane Green ) y MySQL AB ( Marten Mikos ) [8] . Gracias al traslado de Cutting a Cloudera, la empresa ha sido descrita como "la nueva abanderada de Hadoop" [9] .
En 2009, Biscilla ocupó el quinto lugar en la lista Top 22 Young Tech Entrepreneurs de Businessweek [10] , y Hammerbacher ocupó el séptimo lugar (de 15) en 2010 . En la nominación de Biscilla, Cloudera se describió como una empresa de servicios que brinda asesoramiento técnico sobre Hadoop, mientras que la contribución de Hammerbacher en 2010 se señaló como una transformación del negocio de la empresa, convirtiéndola en un proveedor de software replicable para organizaciones [11] .
En noviembre de 2011, la empresa recibió financiación adicional por valor de 40 millones de dólares [12] , en diciembre de 2012, otros 65 millones de dólares [13] , entre los inversores de las próximas rondas se encuentran Ignition Partners , Greylock , Accel , Meritech Capital Partners e In -Q-Tel [ 14] [13] .
En octubre de 2012, la empresa presentó el producto Impala , que proporciona acceso SQL a los datos en un clúster controlado por Hadoop, la aparición de dicho producto fue recibida como una sorpresa, ya que la retórica predominante de las empresas se centró en "big data". "tecnologías fue el abandono de las tecnologías tradicionales basadas en SQL ( ing. viejo SQL , en consonancia con la " vieja escuela " - vieja escuela ) [15] .
En junio de 2013, Tom Reilly fue invitado al puesto de director ejecutivo , habiendo liderado previamente la adquisición de dos empresas de tecnología por parte de los principales actores (el fabricante de sistemas MDM Trigo fue comprado por IBM en 2004, y ArcSight fue llevada a la OPI y pronto absorbida por Hewlett-Packard en 2010), el evento se evalúa como preparación para una oferta pública inicial o una venta del negocio [16] . Olson pasó al puesto de director estratégico y presidente de la junta. En julio de 2013, la firma se hizo cargo de la empresa británica Myrryx , fundada por Sean Owen , uno de los principales autores del marco de aprendizaje de máquina escalable del ecosistema Hadoop Apache Mahout , Owen fue anunciado como "Director de Data Science " ( director inglés de ciencia de datos ) [17] .
A mediados de 2013, la empresa recibió un total de 141 millones de dólares en cinco rondas de inversiones [16] y, en la siguiente ronda, en marzo de 2014, la empresa recaudó otros 160 millones de dólares [18] . En marzo de 2014, tras la sexta ronda de inversiones, Intel adquirió una participación del 18 % en la empresa por 740 millones de dólares, valorando así el negocio de Cloudera en aproximadamente 4.000 millones de dólares [19] ; al mismo tiempo, Intel abandonó el desarrollo de su propia distribución Hadoop creada un año antes a favor de promover soluciones de Cloudera [18] . En junio de 2014, la empresa adquirió al desarrollador de tecnología de encriptación de datos Gazzang [20] .
En abril de 2017, la empresa realizó una oferta pública inicial en la Bolsa de Valores de Nueva York , como resultado de la cual recaudó $215 millones [21] . En el otoño de 2017, se adquirió la empresa de aprendizaje automático Fast Forward Labs, con sede en Nueva York; el acuerdo se señaló como una respuesta a la estrecha integración de Hortonworks con IBM, que enfatiza el desarrollo de sistemas de inteligencia artificial dentro del programa Watson , y abandonó su distribución de Hadoop en favor de Hortonworks [22] .
En octubre de 2018, se anunció una fusión con Hortonworks, mientras que la estructura retuvo el nombre de Cloudera, cotizando en la bolsa de valores y CEO, y los accionistas de Hortonworks recibieron el 40% de las acciones de la compañía combinada [23] . La transacción se completó el 3 de enero de 2019, a pesar de que la valoración total de las dos empresas en el momento del anuncio era de 5200 millones de dólares, una vez completada, la capitalización del negocio combinado ascendió a unos 3000 millones de dólares [24] . La adquisición en realidad completó la etapa de consolidación en el mercado de distribuciones comerciales de Hadoop (de cualquier otro participante notable del mercado, solo MapR permaneció con una facturación anual de alrededor de $ 175 millones en 2018), cambiando el enfoque de la competencia a segmentos más amplios. - herramientas de big data y plataformas analíticas [25] .
A finales de 2020, la empresa recompró acciones de Intel por 314 millones de dólares (426 millones de dólares menos que la inversión de 2014) [26] .
CDH ( Distribución de Cloudera que incluye Apache Hadoop ) es una distribución de Apache Hadoop que incluye una serie de programas y bibliotecas relacionados y las propias utilidades de desarrollo de Cloudera, distribuidas gratuitamente y admitidas comercialmente para ciertas distribuciones de Linux ( Red Hat Enterprise Linux , CentOS , Ubuntu , SuSE SLES , Debian ). Entre los proyectos de software Apache relacionados con Hadoop, la distribución incluye: Flume , HBase , Hive , Mahout , Oozie , Pig , Sqoop , Whirr , Zookeeper . Además, la distribución incluye su propio subsistema de gestión de clústeres Cloudera Manager , que incluye scripts para desplegar la infraestructura Hadoop tanto en entornos locales como en la nube ( Rackspace , Amazon EC2 , Softlayer ), así como utilidades y configuraciones para admitir la automatización de compilación mediante Apache Maven .
A principios de 2012, se comercializaron dos versiones de CDH, CDH2 (basado en Hadoop 0.20.1) y CDH3 (basado en Hadoop 0.20.2). La distribución de CDH3 está incluida en la entrega del complejo de hardware y software del dispositivo Oracle Big Data [27] ; además, Oracle Corporation proporciona la primera línea de atención al cliente para Hadoop , y Cloudera brinda soporte técnico para problemas más complejos. A mediados de 2012, se lanzó una versión de CDH4 basada en Hadoop 2.0 (incluido el módulo YARN ), tres productos propios de la empresa también se incluyen en CDH4: Hue (interfaz de navegador para administrar un clúster de Hadoop), Impala y Search (búsqueda de texto completo y por facetas en entornos HDFS y HBase ). En 2014 se lanzó la versión CDH5; la versión CDH6, lanzada en la primavera de 2018, se basa en Hadoop 3.0 (cuya innovación clave fue la compatibilidad con la codificación de corrección de errores para HDFS, que puede reducir significativamente el tamaño físico de los clústeres) [28] .
Cloudera Impala es unmotor de consulta SQL masivamente paralelo para datos almacenados en HDFS y HBase , distribuido bajo la licencia Apache 2.0 . A diferencia de Hive , que traduce consultas en un lenguaje similar a SQL (HiveQL) en trabajos de MapReduce ejecutados en modo por lotes, Impala ejecuta consultas en un entorno distribuido de forma interactiva, distribuyendo la consulta entre los nodos de procesamiento según su propio mecanismo, sin recurrir a MapReduce.
Cloudera Manager es un componente especializado que le permite automatizar la creación y modificación de entornos Hadoop, rastrear y analizar la eficiencia de las tareas de procesamiento, configurar alertas sobre la ocurrencia de ciertos eventos relacionados con la operación de la infraestructura de procesamiento distribuido. El costo anual del soporte técnico es de aproximadamente $4000 por nodo de clúster [29] . Hay una edición gratuita para Cloudera Manager ( edición gratuita en inglés ) , que funciona solo en clústeres que constan de menos de 50 nodos y carece de una serie de funciones disponibles para suscriptores comerciales (como supervisión del rendimiento, control de versiones de configuración, compatibilidad con Kerberos ).
Siguiendo la predicción de Garnter en el ciclo de exageración de la tecnología de gestión de datos de 2017 de que el concepto mismo de una "distribución de Hadoop" pronto quedará obsoleto, la empresa ha cambiado su oferta de productos a kits temáticos, compuestos prácticamente por los mismos componentes que se ensamblan en CDH, pero dirigido a ciertas tareas específicas. Así, en 2018, aparecieron productos bajo los nombres Data Warehouse (ensamblaje para almacenes de datos , con foco en Impala), Operational DB (para bases de datos operativas, alrededor de HBase , Kudu y Spark ), Data Engineering (para ETL e interactivos ). acceso a datos), Data Science (para tareas de " ciencia de datos " ), Enterprise Data Hub (para plataformas de datos de nivel empresarial; de hecho, un ensamblaje completo de la distribución de Hadoop más un catálogo de datos basado en su propio componente SDX).
Desde 2018, la política de precios se ha formado en torno a productos temáticos; Dependiendo de la configuración, los suscriptores pagan anualmente desde $ 4000 por admitir cada nodo de producto de ingeniería de datos y ciencia de datos hasta $ 10 000 por un nodo de producto Enterprise Data Hub.