Choisir votre LLM¶

AKKO ne choisit pas de LLM pour vous. La plateforme fait tourner n'importe quel modèle qu'Ollama sait servir, et LiteLLM les expose via des alias compatibles OpenAI. Cette page documente les candidats pré-téléchargés et quand choisir lequel.

Candidats pré-installés sur Netcup / dev¶

Alias LiteLLM	Modèle sous-jacent	Origine	Taille	Point fort
`akko-chat`	`qwen2.5-coder:7b` (défaut)	Alibaba / Qwen	4,7 Go	Meilleure génération SQL sur l'évaluation ADEN actuelle.
`akko-chat-eu`	`mistral:7b`	Mistral AI (France)	4,1 Go	LLM souverain européen ; raisonnement fort, SQL plus faible.
`akko-embed`	`nomic-embed-text`	Nomic (US)	274 Mo	Embeddings 768-dim pour `akko_ai_embed` / `akko_ai_search`.

Ajoutez ou retirez des candidats en éditant akko-ollama.models dans helm/examples/values-netcup.yaml (ou votre propre fichier de valeurs). La liste est aussi reflétée dans la config d'alias LiteLLM (helm/akko/charts/akko-litellm/values.yaml).

Quand choisir lequel¶

Acheteurs à souveraineté européenne

Les organisations EU régulées — banques, secteur public, défense, santé — rejettent régulièrement les modèles d'origine chinoise comme LLM par défaut d'un déploiement souverain. Si cela s'applique à votre acheteur, basculez akko-chat sur Mistral, même si les scores SQL baissent légèrement. Le risque opérationnel est un taux de retry plus élevé dans ADEN, pas une perte de fonctionnalité.

Charges SQL dominantes

Qwen 2.5 Coder reste en tête sur le jeu d'éval AKKO ADEN (génération SQL contre Iceberg + Trino). Si votre usage principal est NL → SQL et que vous n'avez pas la contrainte de souveraineté, gardez Qwen comme cible de akko-chat.

Raisonnement général / réponses RAG

Mistral 7B Instruct v0.3 est légèrement meilleur sur les réponses ouvertes (résumé, Q&A, extraction d'entités). Pour la famille akko_ai_ask / akko_ai_summarize / akko_ai_entities, pointez akko-chat sur Mistral.

Comment basculer le défaut¶

L'alias par défaut utilisé par ADEN et les fonctions Trino ai_* est akko-chat. Le bascule est un override de values, sans changement de code :

akko-litellm:
  config:
    model_list:
      - model_name: akko-chat
        litellm_params:
          model: "ollama/mistral:7b"   # <- anciennement ollama/qwen2.5-coder:7b
          api_base: "http://akko-akko-ollama:11434"

Relancez helm upgrade akko ... (le cycle Netcup standard). Aucun redémarrage de pod ADEN ou du coordinateur Trino n'est requis — LiteLLM recharge à chaud la table d'alias.

Méthodologie de benchmark (en cours)¶

Le jeu d'éval AKKO ADEN (sprint 41) contient 60 prompts NL → SQL reflétant les trois démos de référence (fraude bancaire, cohortes santé, attribution retail). Nous notons :

Validité syntaxique SQL contre Trino 480 (parsing coordinateur, zéro exécution).
Équivalence sémantique contre un SQL de référence écrit à la main.
Correspondance ligne à ligne des résultats exécutés sur le catalogue iceberg seedé.

Les résultats Qwen 2.5 Coder 7B vs Mistral 7B v0.3 vs Llama 3.1 8B seront publiés en sortie de sprint 42. Jusque-là, Qwen reste l'alias par défaut et Mistral est disponible en opt-in via akko-chat-eu.

Déploiements air-gapped / sans internet¶

Les trois candidats sont livrés comme couches gguf à l'intérieur du job d'init akko-ollama. Sur une installation entièrement hors ligne, récupérez l'image avec les modèles pré-embarqués (akko-ollama:2026.04-eu si vous voulez le bundle Mistral) et mettez akko-ollama.init.enabled: false. Les opérations après démarrage n'ont aucune dépendance internet.