В статье рассматривается построение платформы для анализа больших данных с использованием программных продуктов с открытым кодом из экосистемы Apache, таких как HDFS, YARN, Hive, Spark, Kafka, Airflow и Superset. Описаны основные компоненты системы, их функции и преимущества, также приводятся примеры применения. Статья будет полезна специалистам, связанным с анализом данных, инженерам и разработчикам, занимающимся проектированием и внедрением систем анализ.