Analítica de datos
Big Data
Apache Ranger
Plataforma de gestión de políticas de seguridad para el ecosistema Hadoop, permitiendo el control y la auditoría de los accesos a los datos.
Características:
- Gestión centralizada de políticas de seguridad.
- Control de acceso basado en roles (RBAC).
- Integración con Hadoop, Hive, HBase, Kfka y más.
- Auditoría y monitoreo de accesos.
- Soporte para cifrado de datos.
Licencia: Apache 2.0 Versión: 2.1.0 ![]()
Apache Hadoop
Framework para el procesamiento distribuido de grandes conjuntos de datos en clusters de computadoras.
Características:
- Procesamiento distribuido a gran escala.
- Almacenamiento de datos en el sistema HDFS.
- Escalabilidad horizontal en clústeres de servidores.
- Soporta diferentes sistemas de procesamiento .
- Alta tolerancia a fallos.
Licencia: Apache 2.0 Versión: 3.4.2 ![]()
Open Metadata
Plataforma para la gestión de metadatos en entornos de datos modernos, facilitando la administración de datos, procesos y flujos en las organizaciones.
Características:
- Gestión y descubrimiento de metadatos.
- Integración con herramientas de Big Data.
- Arquitectura flexible y extensible.
- Soporta auditar y rastrear flujos de datos.
- Centrado en la colaboración de equipos de datos.
Licencia: Apache 2.0 Versión: 1.11.3 ![]()
Apache Pig
Lenguaje de alto nivel para analizar grandes volúmenes de datos en el ecosistema de Hadoop. Pig.
Características:
- Lenguaje de alto nivel para procesamiento de datos.
- Integración con Hadoop.
- Soporte para procesamiento paralelo.
- Soporte para cargas de trabajo complejas.
- Múltiples modos de ejecución.
Licencia: Apache 2.0 Versión: 0.18.0 ![]()
Análisis Predictivo
KNIME
Pataforma para el análisis de minería de datos y el análisis predictivo, permitiendo crear flujos de trabajo visuales.
Características:
- Interfaz visual para crear flujos de trabajo de datos.
- Soporta aprendizaje automático y minería de datos.
- Compatible con Python, R y otros lenguajes.
- Integración y conectividad extensas.
- Integración con herramientas de Big Data.
Licencia: GPL 3 Versión: 5.9 ![]()
R
Lenguaje de programación especializado en el análisis estadístico y modelado predictivo.
Características:
- Amplio ecosistema de paquetes para análisis predictivo.
- Extensas capacidades de visualización.
- Permite programación avanzada y flexible.
- Interoperabilidad con otros lenguajes y sistemas.
- Comunidad activa.
Licencia: GPL 2 Versión: 4.5.2 ![]()
JASP
Software de análisis estadístico, diseñado para facilitar el análisis de datos mediante una interfaz gráfica amigable, sin necesidad de programación.
Características:
- Interfaz gráfica intuitiva para usuarios no técnicos.
- Soporta análisis estadísticos.
-
Estadísticas bayesianas.
-
Visualización interactiva de datos.
-
Exportación de resultados a diversos formatos.
Análisis en Tiempo Real
Apache STORM
Sistema de procesamiento de flujos, permite realizar análisis en vivo sobre datos en tiempo real de manera distribuida.
Características:
- Procesamiento en tiempo real y a gran escala.
- Tolerancia a fallos con reinicios automáticos.
- Integración con sistemas de Big Data.
- Velocidad y bajísima latencia.
- Fácil integración con Kafka y otros sistemas.
Licencia: Apache 2.0 Versión: 2.8.3 ![]()
Apache Flink
Plataforma de procesamiento de datos en tiempo real, diseñada para gestionar flujos de datos masivos y procesarlos en tiempo real.
Características:
- Procesamiento de flujos de datos en tiempo real.
- Soporta eventos fuera de orden.
- Alta tolerancia a fallos.
- API para Java, Scala y Python.
- Integración con Hadoop y Kafka.
Licencia: Apache 2.0 Versión: 2.2.0 ![]()
Apache NiFi
Plataforma de integración de datos que permite el procesamiento, enrutamiento y transformación de datos en tiempo real.
Características:
- Interfaz gráfica para diseño de flujos de datos.
- Integración con múltiples de fuentes de datos.
- Soporte para procesamiento en tiempo real.
- Alta escalabilidad.
- Control de calidad de los datos.
Licencia: Apache 2.0 Versión: 2.3.0 ![]()
Análisis distribuido
dask
Librería de Python que permite paralelizar el procesamiento de grandes conjuntos de datos.
Características:
- Facilita la computación paralela a gran escala.
- Compatible con otras librerías de Python como NumPy, pandas y scikit-learn.
- Permite el procesamiento de datos distribuidos.
- Escalable a clústeres de computadoras.
- Compatible con Python.
Licencia: BSD 3 Versión: 2025.12.0 ![]()
MapReduce
Modelo de programación para procesamiento paralelo y distribuido de grandes volúmenes de datos en clusters.
Características:
- Procesa grandes cantidades de datos distribuidos.
- Divide el trabajo mediante el proceso «Map».
- Agrega los resultados usando el proceso «Reduce».
- Escalable y eficiente en grandes clústeres.
- Utilizado en entornos Hadoop.
Licencia: Apache 2.0 Versión: 3.4.2 ![]()
Apache Spark
Motor de procesamiento de datos en clúster que se utiliza para procesar grandes volúmenes de datos de manera rápida.
Características:
- Procesamiento rápido y distribuido.
- Compatible con múltiples lenguajes.
- Realiza procesamiento de datos en memoria.
- Soporta operaciones de aprendizaje automático.
- Funciones avanzadas de análisis de gráficos.
Licencia: Apache 2.0 Versión: 3.5.5 ![]()
Minería de Datos
moose
Herramienta especializada en analizar código fuente y proyectos de software (para desarrolladores).
Características:
- Mide calidad de código (ej: complejidad, bugs).
- Visualiza estructuras de software.
- Extensible con plugins.
- Usado en investigación académica.
- Gratis y de código abierto.
Licencia: MIT Versión: 12 ![]()
Apache Mahout
Librería para análisis de datos masivos en sistemas distribuidos (como Hadoop).
Características:
- Diseñado para big data.
- Incluye algoritmos como recomendaciones y agrupación.
- Funciona con Spark y Hadoop.
- Para programadores avanzados.
- Gratis y usado en la nube.
Licencia: Apache 2.0 Versión: 14.1 ![]()
Presto
Motor rápido para hacer consultas SQL en grandes bases de datos (como las que usan Netflix o Facebook).
Características:
- Consulta datos en segundos, aunque sean enormes.
- Conecta con muchas fuentes (Google, AWS, MySQL).
- No necesita copiar datos (los lee directamente).
- Escalable (puede usarse en servidores grandes).
- Gratis y usado por empresas grandes.
Licencia: Apache 2.0 Versión: 0.296 ![]()
Weka
Programa fácil de usar para analizar datos y hacer predicciones automáticas.
Características:
- Validación y evaluación de modelos.
- Interfaz gráfica fácil de usar.
- Herramientas de visualización de datos.
- Implementación de algoritmos de clasificación y agrupamiento.
- Compatible con múltiples formatos de datos.
Licencia: GPL 3 Versión: 3.8.6 ![]()
Orange
Plataforma que ofrece herramientas para visualización, aprendizaje automático y análisis de datos interactivos.
Características:
- Interfaz gráfica para diseño de flujos de trabajo.
- Soporte para minería de datos.
- Amplia gama de widgets para análisis de datos.
- Análisis predictivo.
- Soporte para integración con Python.
Licencia: GPL 3 Versión: 3.39.0 ![]()
Visualización de Datos
Superset
Es una plataforma de visualización de datos que permite crear dashboards interactivos y gráficos avanzados, con soporte para bases de datos SQL.
Características:
- Amplia variedad de gráficos y visualizaciones.
- Conexión a múltiples bases de datos SQL.
- Interfaz de usuario moderna.
- Creación de dashboards interactivos.
- Autenticación y control de acceso avanzado.
Licencia: Apache 2.0 Versión: 5.0.0 ![]()
OpenSearch
Motor de búsqueda y análisis, utilizado para la búsqueda y análisis de grandes volúmenes de datos.
Características:
- API compatible con Elasticsearch.
- Motor de búsqueda y análisis distribuido.
- Plugin de seguridad (autenticación, cifrado, RBAC).
- Soporte para consultas en lenguaje SQL además de DSL de Elasticsearch.
- Despliegue flexible.
Licencia: Apache 2.0 Versión: 3.3.2 ![]()
Apache Zeppelin
Plataforma de análisis de datos y visualización interactiva que soporta múltiples lenguajes y permite colaboraciones en equipos de datos.
Características:
- Soporte para múltiples lenguajes (SQL, Python, R).
- Visualización interactiva en notebooks.
- Integración con big data (Hadoop, Spark).
- Colaboración en tiempo real.
- Soporte para múltiples bases de datos.
Licencia: Apache 2.0 Versión: 0.12.0 ![]()
RAWGraphs
Herramienta de visualización de datos que permite generar gráficos complejos.
Características:
- Interfaz sencilla y fácil de usar.
- Generación de gráficos complejos.
- Exportación de visualizaciones a SVG, PNG y otros formatos.
- Compatible con datos CSV y JSON.
- Personalización de los gráficos.
Licencia: Apache 2.0 Versión: 2.0.1 ![]()





















