Aller au contenu

akko-demo-cloudera

Périmètre 2 du cluster démo AKKO — simule un parc Cloudera CDP on-prem (HDFS 3, Hive 3, Kerberos KDC). Tourne dans le namespace dédié akko-demo-cloudera, isolé de la plateforme akko.

Pourquoi

Les prospects banque/assurance ont souvent un legacy Hadoop kerberisé. AKKO doit montrer qu'il fédère ce legacy via Trino sans demander de migration : les tables hive.cloudera_kerb.* apparaissent dans le catalogue OpenMetadata aux côtés des tables Iceberg natives.

Composants

Service Rôle Image
kdc MIT Kerberos KDC localhost:30500/akko/akko-cloudera-kdc:2026.05
hdfs-namenode NameNode HDFS 3 localhost:30500/akko/akko-cloudera-hdfs:2026.05
hdfs-datanode DataNode (1 réplique) idem
hive-metastore Metastore Hive 3 (Postgres) localhost:30500/akko/akko-cloudera-hive:2026.05
hiveserver2 HiveServer2 + Spark idem

Tous communiquent via principals Kerberos (hive/_HOST@AKKO.LOCAL, hdfs/_HOST@AKKO.LOCAL). Les ports sont exposés en NodePort uniquement au sein du cluster — aucun accès Internet.

Flow client typique

  1. Le client a déjà des tables Hive externes (PARTITIONED BY year).
  2. AKKO Trino reçoit un keytab service via le Secret akko-trino-cloudera-keytab (généré côté KDC).
  3. Trino federe hive.cloudera_kerb.* ; ADEN écrit du SQL qui joint iceberg.banking_curated.transactions avec hive.cloudera_kerb.kyc.
  4. OpenMetadata ingère le metastore en tant que source Hive séparée.

Repo + déploiement

  • Repo : https://github.com/AKKO-p/akko-demo-cloudera (private).
  • Helm release : akko-demo-cloudera dans son namespace dédié.
  • Déploiement : helm install akko-demo-cloudera ./helm/akko-demo-cloudera/ (séparé du chart umbrella akko).

Limitations

  • Démo only — pas de HA NameNode, replicaset HDFS = 1.
  • Le KDC redémarre fresh à chaque deploy ; les keytabs sont régénérés.
  • Pas de YARN — Spark s'exécute en local mode dans le pod hiveserver2.

Cross-references