À Propos d'AKKO¶
Vision¶
La pile de données moderne est devenue synonyme de dépendance au cloud. Des plateformes comme Databricks, Snowflake et BigQuery offrent une commodité indéniable — mais au prix de la souveraineté. Vos données vivent sur l'infrastructure de quelqu'un d'autre, régies par les conditions de quelqu'un d'autre, tarifées au compteur de quelqu'un d'autre.
AKKO existe pour prouver que vous n'avez pas à choisir entre puissance et propriété. Un ingénieur seul, une petite équipe ou une organisation entière devrait pouvoir déployer une plateforme de données de qualité production — stockage lakehouse, calcul multi-moteur, gouvernance, orchestration, supervision et visualisation — sans abandonner le contrôle d'un seul composant.
Philosophie : Maîtrisez Chaque Couche¶
Le nom dit tout : Analytics Kernel, Keep Ownership.
Le principe de conception d'AKKO est que chaque couche de la plateforme de données — des octets sur le disque aux pixels à l'écran — doit être composée de logiciels open-source que vous pouvez inspecter, forker et remplacer.
| Couche | Composant AKKO | Ce qu'il Remplace |
|---|---|---|
| Stockage Objet | MinIO | Amazon S3, Azure Blob, GCS |
| Format de Table | Apache Iceberg | Delta Lake (Databricks), Hive |
| Catalogue | Apache Polaris | Unity Catalog, AWS Glue, Hive Metastore |
| Calcul Distribué | Spark Connect | Databricks Runtime, EMR |
| Fédération de Requêtes | Trino | Snowflake, Athena, BigQuery |
| Notebooks | JupyterHub + code-server | Databricks Notebooks, Vertex AI Workbench |
| BI et Tableaux de Bord | Apache Superset | Looker, Tableau, Power BI |
| Orchestration | Apache Airflow | Databricks Workflows, Cloud Composer |
| Lignage | OpenLineage | Databricks Unity Catalog lineage |
| Gouvernance | OpenMetadata | Alation, Collibra, Atlan |
| SSO et RBAC | Keycloak | Okta, Auth0, cloud IAM |
| Supervision | Prometheus + Grafana + Loki | Datadog, CloudWatch, Splunk |
| IA Locale | Ollama + LiteLLM + pgvector | OpenAI API, Vertex AI |
| Contrôle d'Accès | OPA (Open Policy Agent) | AWS Lake Formation, politiques Unity Catalog |
| Annuaire | LLDAP | Active Directory, Azure AD |
| Reverse Proxy | Traefik | AWS ALB, Cloudflare |
Aucun composant BSL (Business Source License). Aucun piège « open core ». Apache 2.0 dans la mesure du possible.
Choix Technologiques¶
Chaque technologie dans AKKO a été sélectionnée de manière délibérée. Voici pourquoi :
Apache Iceberg plutôt que Delta Lake¶
Iceberg est un format de table véritablement ouvert, gouverné par la Fondation Apache. Delta Lake, bien qu'open-source, est étroitement couplé à l'écosystème Databricks. Le support multi-moteur d'Iceberg (Spark, Trino, Flink, DuckDB) et sa gouvernance neutre vis-à-vis des fournisseurs en font le choix naturel pour une plateforme souveraine.
Apache Polaris plutôt que Hive Metastore¶
Polaris est le catalogue REST Iceberg en incubation Apache, donné par Snowflake. Il fournit une API REST moderne, une authentification OAuth2 et un RBAC fin — remplaçant le vieillissant Hive Metastore et les alternatives propriétaires comme Unity Catalog et AWS Glue.
Trino plutôt que Presto¶
Trino (anciennement PrestoSQL) est la continuation du projet Presto original par ses créateurs. Il possède une communauté plus active, un rythme de publication plus rapide et une meilleure intégration Iceberg. Son moteur de requêtes fédéré connecte les tables Iceberg, PostgreSQL et d'autres sources à travers une interface SQL unique.
Spark Connect plutôt que Spark Classique¶
Spark Connect fournit une architecture client/serveur légère, permettant aux notebooks de soumettre des jobs Spark via gRPC sans exécuter un driver Spark complet dans le processus du notebook. Cela réduit l'empreinte mémoire et améliore la stabilité dans les environnements multi-utilisateurs.
JupyterHub plutôt que les Notebooks Managés¶
JupyterHub déploie des conteneurs notebook isolés par utilisateur, avec Python, R, Julia, Quarto et code-server pré-installés. Contrairement aux services de notebooks managés, chaque dépendance est explicite dans un Dockerfile que vous contrôlez.
Keycloak plutôt que le Cloud IAM¶
Keycloak fournit un SSO de qualité entreprise avec OpenID Connect sur l'ensemble des 14+ services AKKO. Cinq rôles RBAC (admin, engineer, analyst, steward, viewer) correspondent à des permissions granulaires dans Trino, Superset, Airflow et OpenMetadata — sans dépendance à un fournisseur d'identité cloud.
OpenMetadata plutôt que les Catalogues Propriétaires¶
OpenMetadata est une plateforme de gouvernance des données entièrement open-source avec ingestion automatisée, suivi du lignage, tests de qualité des données, gestion de glossaire et propriété par équipe. Contrairement à Alation ou Collibra, il n'y a pas de paywall entreprise sur les fonctionnalités principales.
Ollama plutôt que les API d'IA Cloud¶
Ollama exécute des LLM à poids ouverts localement. Combiné avec pgvector dans PostgreSQL et LangChain dans les notebooks, il permet des pipelines RAG (Retrieval-Augmented Generation) où aucune donnée ne quitte jamais votre infrastructure.
AKKO vs. Plateformes Cloud¶
Une comparaison factuelle des capacités :
| Capacité | AKKO | Databricks | Snowflake |
|---|---|---|---|
| Déploiement | Auto-hébergé (Helm sur Kubernetes) | Cloud managé | Cloud managé |
| Format de Table | Apache Iceberg | Delta Lake | Iceberg (lecture), propriétaire (natif) |
| Catalogue | Apache Polaris (REST) | Unity Catalog | Géré par Snowflake |
| Moteurs de Calcul | Spark, Trino, DuckDB | Spark (Photon) | Moteur Snowflake |
| Notebooks | JupyterHub + code-server | Databricks Notebooks | Snowflake Notebooks |
| BI | Apache Superset | Databricks SQL / partenaire | Snowsight / partenaire |
| Orchestration | Apache Airflow | Databricks Workflows | Snowflake Tasks |
| Gouvernance des Données | OpenMetadata | Unity Catalog | Horizon |
| SSO | Keycloak (auto-hébergé) | Intégration Cloud IAM | Intégration Cloud IAM |
| Supervision | Prometheus + Grafana + Loki | Métriques cloud natives | Historique des requêtes |
| IA Locale / LLM | Ollama + LiteLLM (entièrement hors-ligne) | Mosaic AI | Cortex AI |
| Souveraineté des Données | Complète (votre infra) | Dépendant du fournisseur cloud | Dépendant du fournisseur cloud |
| Tarification | Open-source (zéro coût de licence) | À la consommation (DBU) | À la consommation (crédits) |
| Dépendance Fournisseur | Aucune | Modérée (Delta, Unity) | Élevée (format propriétaire) |
| Licence | Apache 2.0 | Apache 2.0 / BSL mixte | Propriétaire |
Comparaison équitable
Les plateformes cloud offrent une infrastructure managée, de l'auto-scaling et du support entreprise qu'AKKO ne fournit pas nativement. La proposition de valeur d'AKKO est la souveraineté, la transparence et zéro coût récurrent — pas la concurrence avec les SLA des services managés.
Licence¶
AKKO est un logiciel open-source. La plateforme elle-même ainsi que l'ensemble des configurations, scripts et documentation sont publiés sous une licence open-source.
Chaque composant intégré utilise une licence open-source, avec une forte préférence pour la Licence Apache 2.0. Aucun composant BSL (Business Source License) n'est inclus.
Maîtrisez Chaque Couche.