Sécurité de HolaNolis
Comment ça marche, ce que ça couvre, ce que ça ne couvre pas
Note légale préliminaire. Ce document décrit la conception et les mécanismes de sécurité de HolaNolis. Il ne constitue pas une déclaration de conformité juridique et reste en attente de revue par des tiers (conseil juridique et, en temps voulu, audit externe). Si vous trouvez un cas où le système échoue ou produit un résultat inattendu, signalez-le à security@holanolis.com (voir la dernière section, Signaler un défaut).
HolaNolis est un compagnon conversationnel basé sur l'intelligence artificielle, conçu pour les mineurs de 10 à 20 ans, supervisés par un tuteur (parent ou tuteur légal). Cette page explique, en langage accessible, comment fonctionne le système de sécurité qui protège cette conversation.
Ce que HolaNolis garantit, et ce qu'il ne garantit pas
Ce que HolaNolis ne garantit pas
- Il ne garantit pas l'absence totale de défauts. Comme dans tout système basé sur l'intelligence artificielle, aucun filtre n'est parfait. Les taux de détection et de filtrage sont élevés, mais pas de 100 %, et nous les publions ci-dessous de la manière la plus honnête possible.
- Il ne garantit pas le remplacement d'un professionnel de santé, d'un psychologue, d'un service social ou d'une intervention d'urgence médicale. HolaNolis n'est pas un service de santé mentale.
- Il ne garantit pas qu'un mineur déterminé à contourner le système ne puisse, dans certains cas, y parvenir. Nous concevons le système pour réduire cette probabilité — pas pour la ramener à zéro, car ce ne serait pas honnête.
Ce que HolaNolis offre
- Une architecture multicouche, décrite ci-dessous, conçue pour réduire le risque d'exposition à des contenus nocifs pour les mineurs.
- Un mécanisme pour alerter le tuteur lorsque le système détecte des signaux compatibles avec une situation de crise (idées suicidaires, automutilation, troubles alimentaires graves, abus, grooming, substances).
- Transparence opérationnelle : ce document, les métriques techniques, et un canal ouvert pour que les utilisateurs puissent signaler des défauts.
Pipeline de sécurité — quatre couches
Chaque message qu'un mineur envoie à HolaNolis traverse quatre couches de vérification. Chaque couche est conçue pour détecter un type de risque différent ; ensemble, elles offrent une défense redondante (ce que l'on appelle la défense en profondeur). Si une couche échoue, la suivante peut intercepter le problème.
Couche 1 — Filtre d'entrée (avant le modèle d'IA)
Ce qu'elle fait. Avant que le message n'atteigne le modèle d'IA, le système l'analyse contre :
- Listes de mots-clés (suicide, automutilation, abus, substances, contenu sexuel, etc.).
- Motifs de texte évasif (écriture avec des chiffres, caractères invisibles, leetspeak, mélange d'alphabets).
- Détecteurs d'informations personnellement identifiables (PII) : numéros de téléphone, adresses, numéros d'identité.
- Motifs d'injection d'instructions (tentatives du mineur ou d'un tiers pour manipuler les instructions du système).
Ce qu'elle ne fait pas. Elle ne comprend pas le contexte profond. Une phrase comme "je meurs de rire" peut déclencher un mot-clé qu'une couche ultérieure devra filtrer. C'est pour cela que cette couche, seule, ne suffit pas.
Latence typique. Inférieure à 10 millisecondes.
Couche 2 — Règles de sécurité dans le modèle d'IA
Ce qu'elle fait. Le modèle d'IA reçoit, dans le cadre de ses instructions système, un ensemble de règles non négociables (catégories interdites, lignes rouges, comportements prescriptifs à éviter). Ces règles voyagent avec chaque conversation et sont conçues pour que le modèle ne les "oublie" pas et ne se laisse pas "convaincre" de les ignorer par manipulation (jailbreak, jeu de rôle, pression émotionnelle).
Ce qu'elle ne fait pas. Un modèle d'IA peut, dans certains cas, être persuadé d'ignorer ses instructions. C'est pour cela que cette couche n'opère jamais seule ; les couches 1 et 3 existent précisément parce que le modèle peut faillir.
Couche 3 — Filtre de sortie (après le modèle d'IA)
Ce qu'elle fait. Avant d'afficher la réponse de l'IA au mineur, le système la vérifie contre :
- Lignes rouges (conseil médical, diagnostic, prescription, contenu explicite, etc.).
- Adéquation à l'âge déclaré du mineur.
- Fuites d'informations personnelles.
- Cohérence avec la personnalité et le ton du compagnon.
Si la réponse ne passe pas, le système la régénère, la remplace par une réponse sûre prédéfinie, ou suspend la conversation et affiche des ressources statiques (selon le cas).
Ce qu'elle ne fait pas. Elle ne peut pas récupérer le coût de calcul d'avoir généré une réponse qui sera ensuite écartée. C'est pour cela qu'elle n'est pas la première barrière, mais le dernier filet.
Couche 4 — Détection de crise et alerte au tuteur
Ce qu'elle fait. En parallèle des trois couches précédentes, le système classe les messages contre un ensemble de catégories de crise (idées suicidaires, automutilation, troubles alimentaires, abus/grooming, substances, violence envers autrui). Il assigne un niveau de sévérité (élevée, moyenne, faible) et, le cas échéant, déclenche une alerte au tuteur par email et notification push.
Ce que voit le mineur. Le mineur ne reçoit pas de message du type "votre tuteur a été notifié". La détection est invisible pour le mineur par conception — si les mineurs apprenaient quelles phrases précises déclenchent une alerte, ils éviteraient de les dire et le système cesserait de fonctionner.
Ce que voit le tuteur. Le tuteur reçoit une alerte avec la catégorie, la sévérité, l'horodatage, et un lien vers le tableau de bord où il peut consulter le contexte pertinent de la conversation. Les alertes de crise sont toujours gratuites, même pour les utilisateurs sans abonnement premium.
Catégories que le système surveille
Le système surveille, sans vocation à l'exhaustivité, les catégories suivantes. La taxonomie détaillée et le traitement de chacune sont conservés en documentation technique interne ; nous en proposons ici un résumé accessible.
| Catégorie | Ce qu'elle couvre (résumé) | Action typique |
|---|---|---|
| Idées suicidaires / automutilation | Expressions de vouloir se faire du mal ou de ne plus vouloir vivre | Alerte au tuteur, ressources d'aide immédiates |
| Troubles du comportement alimentaire | Restriction extrême, purges, dysmorphie corporelle | Alerte au tuteur, redirection vers un professionnel |
| Abus, grooming, sextorsion | Adultes contactant le mineur dans une intention sexuelle ou coercitive | Alerte au tuteur, ressources spécialisées |
| Substances | Consommation, échange, recherche de drogues ou d'alcool | Alerte au tuteur, ressources informatives |
| Violence envers autrui | Menaces, plans pour faire du mal à une autre personne | Alerte au tuteur, ressources selon le cas |
| Contenu sexuel explicite | Matériel inapproprié pour l'âge du mineur | Filtré à l'entrée et/ou à la sortie |
| Informations personnellement identifiables | Numéros de téléphone, adresses, données sensibles partagées sans protection | Filtré ou alerte selon le contexte |
| Tentatives de manipulation du système | Jailbreak, injection de prompt, usurpation d'identité | Filtré, enregistré dans l'audit log |
Ce tableau est indicatif. La taxonomie complète et les critères de sévérité sont conservés en documentation technique interne pour deux raisons : (a) éviter de publier une carte d'évasion, et (b) parce que la taxonomie évolue avec le système.
Métriques (préliminaires)
Avis d'honnêteté. À ce jour, nous pouvons publier le nombre de tests automatisés qui protègent chaque couche. Les taux réels de détection, de faux positifs et de faux négatifs exigent d'exécuter la suite contre un corpus annoté par des tiers et de les publier avec une rigueur statistique — et nous préférons ne pas publier de chiffres que nous ne pourrions défendre. Lorsque ce travail sera fait, nous le publierons ici.
| Couche | Tests automatisés | Taux de détection mesuré |
|---|---|---|
| L1 — Filtre d'entrée | 139 | en attente — voir « Limites connues » |
| L2 — Règles système (HARDSKILL) | 35 | en attente — voir « Limites connues » |
| L3 — Filtre de sortie | 16 | en attente, avec bug connu — voir « Limites connues » |
| L4 — Détection de crise | 98 | en attente — voir « Limites connues » |
| Autres (helpers, intégration) | 36 | n/a |
| Total | 324 |
Dernière extraction des chiffres : 2026-04-29.
Version du document : v0.1 (brouillon, en attente de revue juridique).
Limites connues (transparence honnête)
Comme tout système d'IA, HolaNolis a des défauts. Les publier ouvertement fait partie de notre engagement de sécurité — ne pas faire semblant d'être parfait.
L3 — Filtre de sortie face au diagnostic déclaratif
Détecté : 2026-04-29. Statut : correctif en préparation.
Notre suite de tests automatisés a détecté que le filtre de sortie (couche L3) ne couvre pas les motifs déclaratifs directs du type "you have X" + impératif "you should Y". Les motifs modaux traditionnels ("might have", "could be") sont, eux, bien filtrés. Le correctif est identifié et en attente de déploiement.
Implication pratique : dans la période entre la détection et le déploiement du correctif, une réponse de Nolis du type « tu as une dépression et tu devrais aller en thérapie » pourrait ne pas être interceptée par L3, même si les couches L1 (entrée) et L2 (system prompt de Nolis) sont déjà conçues pour éviter de la générer.
Couverture par tranche d'âge
Aujourd'hui, nous ne pouvons pas quantifier la couverture des tests par tranche d'âge (10-12 / 13-15 / 16-18 / 19-20) car nos tests ne sont pas étiquetés par âge. C'est sur la liste des améliorations.
Taux réels de détection
Nous ne publions pas encore de taux de faux positifs (Nolis interprète à tort quelque chose de sûr comme un risque) ni de faux négatifs (Nolis ne détecte pas un signal réel de risque). Pour le faire, il nous faut un corpus annoté par des spécialistes humains, en cours de constitution.
Ce que le système NE fait PAS
Pour éviter toute confusion — et parce que nous pensons qu'un compagnon d'IA pour mineurs doit être explicite sur ses limites :
Il ne diagnostique pas. HolaNolis ne dit pas « tu as de l'anxiété », « tu es déprimé » ni « tu as un TDAH ». Seuls les professionnels de santé peuvent le faire.
Il ne prescrit pas. Il ne recommande ni médicament, ni régime, ni thérapie spécifique, ni routine clinique.
Il ne remplace pas un professionnel. Si votre enfant a besoin d'une aide professionnelle, HolaNolis n'est pas ce service. Les alertes envoyées aux tuteurs sont un signal, pas un diagnostic.
Il n'alerte pas automatiquement les forces de l'ordre ni les services sociaux. Ce qu'il faut faire d'une alerte est toujours la décision du tuteur.
Il n'enregistre pas l'audio ambiant, n'active pas la caméra sans permission, ne géolocalise pas le mineur. Le système ne traite que ce que le mineur écrit (ou envoie sous forme d'image) à l'intérieur du chat.
Il ne garantit pas l'impossibilité de contournement. Nous concevons contre ce scénario, mais nous n'affirmons pas avoir éliminé le risque qu'un mineur déterminé à contourner le système y parvienne dans certains cas.
Processus de revue d'incident
Lorsqu'un utilisateur signale un défaut de sécurité — un message qui aurait dû être bloqué et qui ne l'a pas été, une alerte qui s'est déclenchée alors qu'elle n'aurait pas dû, ou tout autre comportement inattendu — nous suivons ce processus :
- Accusé de réception dans un délai raisonnable (objectif : 72 heures ouvrées).
- Reproduction du cas, dans la mesure où les informations fournies le permettent.
- Analyse et, le cas échéant, correction du système, accompagnée d'un test qui détecte le défaut afin d'éviter les régressions futures.
- Communication à l'utilisateur ayant signalé le défaut une fois le cycle clos.
Nous ne publions pas aujourd'hui de politique formelle de responsible disclosure avec des délais contractuels. C'est sur la liste des éléments à formaliser dans la prochaine phase du produit.
Signaler un défaut
Si vous trouvez un cas où le système :
- A bloqué quelque chose qu'il n'aurait pas dû bloquer (faux positif).
- N'a pas bloqué quelque chose qu'il aurait dû bloquer (faux négatif).
- A déclenché une alerte sans cause claire (faux positif de crise).
- N'a pas déclenché d'alerte alors qu'il aurait dû (faux négatif de crise).
- A produit un conseil médical, un diagnostic ou une prescription.
- A été manipulé par un mineur ou un tiers pour contourner les règles.
Merci de nous écrire à security@holanolis.com en incluant :
- Ce que vous attendiez qu'il se passe.
- Ce qui s'est réellement passé.
- Étapes pour reproduire (si vous les avez).
- Captures d'écran, s'il est sûr de les partager.
- Langue et version de l'application, si vous les connaissez.
Votre signalement nous aide à améliorer le système. Nous le prenons au sérieux.
Document v0.1 — en attente de revue juridique et d'audit externe avant publication officielle. Les chiffres de tests reflètent la dernière extraction du 2026-04-29. Les taux réels de détection et de faux positifs / faux négatifs seront publiés lorsque le corpus annoté sera prêt.