Seguretat de HolaNolis
Com funciona, què cobreix i què no
Nota legal preliminar. Aquest document descriu el disseny i els mecanismes de seguretat de HolaNolis. No és una declaració de compliment legal i està pendent de revisió per tercers (assessoria jurídica i, en el seu moment, auditoria externa). Si trobes un cas on el sistema falla o produeix un resultat inesperat, reporta'l a seguridad@holanolis.com (vegeu la secció final, Reporta un error).
HolaNolis és un company conversacional amb intel·ligència artificial dissenyat per a menors de 10 a 20 anys, supervisat per un tutor (mare, pare o tutor/a legal). Aquesta pàgina explica, en llenguatge accessible, com funciona el sistema de seguretat que protegeix aquesta conversa.
Què garanteix HolaNolis i què no?
El que HolaNolis no garanteix
- No garanteix l'absència total d'errors. Com en qualsevol sistema basat en intel·ligència artificial, cap filtre és perfecte. Les taxes de detecció i filtratge són altes, però no del 100 %, i les publiquem a baix de la manera més honesta que podem.
- No garanteix que substitueixi un professional sanitari, un psicòleg, un servei social o una emergència mèdica. HolaNolis no és un servei de salut mental.
- No garanteix que un menor amb voluntat expressa de saltar-se el sistema no ho pugui aconseguir, en algun cas. Dissenyem per reduir aquesta probabilitat — no per reduir-la a zero, perquè això no seria honest.
El que HolaNolis sí ofereix
- Una arquitectura multicapa, descrita més avall, dissenyada per reduir el risc d'exposició a contingut perjudicial per a menors.
- Un mecanisme per alertar el tutor quan el sistema detecta senyals compatibles amb una situació de crisi (ideació suïcida, autolesió, trastorns alimentaris greus, abús, grooming, substàncies).
- Transparència operativa: aquest document, les mètriques tècniques, i un canal obert perquè els usuaris reportin errors.
Pipeline de seguretat — quatre capes
Cada missatge que un menor escriu a HolaNolis passa per quatre capes de verificació. Cada capa està dissenyada per detectar un tipus de risc diferent; juntes ofereixen una defensa redundant (allò que es coneix com a defensa en profunditat). Si una capa falla, la següent pot capturar el problema.
Capa 1 — Filtre d'entrada (abans del model d'IA)
Què fa. Abans que el missatge arribi al model d'IA, el sistema l'escaneja contra:
- Llistes de paraules clau (suïcidi, autolesió, abús, substàncies, contingut sexual, etc.).
- Patrons de text evasiu (escriptura amb números, caràcters invisibles, leetspeak, mescla d'alfabets).
- Detectors d'informació personal identificable (PII) com telèfons, adreces, DNI.
- Patrons d'injecció d'instruccions (intents del menor o d'un tercer per manipular les instruccions del sistema).
Què no fa. No comprèn context profund. Una frase com "em moro de riure" pot activar una paraula clau que després s'ha de filtrar en una altra capa. Per això aquesta capa, sola, no n'hi ha prou.
Temps típic. Per sota dels 10 mil·lisegons.
Capa 2 — Regles de seguretat dins del model d'IA
Què fa. El model d'IA rep, com a part de les seves instruccions de sistema, un conjunt de regles no negociables (categories prohibides, línies vermelles, comportaments prescriptius a evitar). Aquestes regles viatgen amb cada conversa i estan dissenyades perquè el model no les "oblidi" ni se'n deixi "convèncer" mitjançant manipulació (jailbreak, joc de rol, pressió emocional).
Què no fa. Un model d'IA pot, en alguns casos, ser persuadit per ignorar instruccions. Per això aquesta capa mai opera sola; les capes 1 i 3 existeixen precisament perquè el model pot fallar.
Capa 3 — Filtre de sortida (després del model d'IA)
Què fa. Abans de mostrar la resposta de la IA al menor, el sistema la revisa contra:
- Línies vermelles (consell mèdic, diagnòstic, prescripció, contingut explícit, etc.).
- Adequació a l'edat declarada del menor.
- Filtracions d'informació personal.
- Coherència amb la persona i el to del company.
Si la resposta no passa, el sistema la regenera, la substitueix per una resposta segura, o suspèn la conversa i mostra recursos estàtics (segons el cas).
Què no fa. No pot recuperar el cost computacional d'haver generat una resposta que després es descarta. Per això no és la primera barrera, sinó l'última xarxa.
Capa 4 — Detecció de crisi i alerta al tutor
Què fa. En paral·lel a les tres capes anteriors, el sistema classifica els missatges contra un conjunt de categories de crisi (ideació suïcida, autolesió, trastorns alimentaris, abús/grooming, substàncies, violència cap a tercers). Assigna un nivell de severitat (alta, mitjana, baixa) i, quan correspon, dispara una alerta al tutor per email i notificació push.
Com ho veu el menor. El menor no rep cap missatge del tipus "el teu tutor ha estat notificat". La detecció és invisible per al menor per disseny — si els menors aprenguessin quines frases concretes disparen una alerta, evitarien dir-les i el sistema deixaria de funcionar.
Com ho veu el tutor. El tutor rep una alerta amb la categoria, la severitat, el moment, i un enllaç al panell on pot veure el context rellevant de la conversa. Les alertes de crisi són sempre gratuïtes, fins i tot per a usuaris sense subscripció premium.
Categories que el sistema rastreja
El sistema rastreja, sense ànim exhaustiu, les categories següents. La relació detallada de cadascuna i el seu tractament estan en la documentació tècnica interna; aquí oferim un resum accessible.
| Categoria | Què cobreix (resum) | Acció típica |
|---|---|---|
| Ideació suïcida / autolesió | Expressions de voler fer-se mal o de no voler continuar vivint | Alerta al tutor, recursos d'ajuda immediats |
| Trastorns de la conducta alimentària | Restricció extrema, purgues, dismòrfia | Alerta al tutor, redirigir a professional |
| Abús, grooming, sextorsió | Adults que contacten el menor amb intenció sexual o coercitiva | Alerta al tutor, recursos especialitzats |
| Substàncies | Consum, intercanvi, recerca de drogues o alcohol | Alerta al tutor, recursos informatius |
| Violència cap a tercers | Amenaces, plans de fer mal a una altra persona | Alerta al tutor, recursos segons el cas |
| Contingut sexual explícit | Material inapropiat per a l'edat | Filtrat a l'entrada i/o a la sortida |
| Informació personal identificable | Telèfons, adreces, dades sensibles compartides sense protecció | Filtrat o alerta segons context |
| Intents de manipulació del sistema | Jailbreak, injecció de prompt, suplantació | Filtrat, registrat al audit log |
Aquesta taula és indicativa. La tipologia completa i els criteris de severitat es mantenen com a documentació tècnica interna per dues raons: (a) evitar que es publiqui un mapa d'evasió, i (b) perquè la tipologia evoluciona amb el sistema.
Mètriques (preliminars)
Avís d'honestedat. Avui podem publicar el recompte de tests automatitzats que protegeixen cada capa. Les taxes reals de detecció, falsos positius i falsos negatius requereixen executar la suite contra un corpus etiquetat per tercers i publicar-les amb rigor estadístic — i preferim no publicar xifres que no puguem defensar. Quan aquesta feina estigui feta, ho publicarem aquí.
| Capa | Tests automatitzats | Taxa de detecció mesurada |
|---|---|---|
| L1 — Filtre d'entrada | 139 | pendent — vegeu "Limitacions conegudes" |
| L2 — Regles de sistema (HARDSKILL) | 35 | pendent — vegeu "Limitacions conegudes" |
| L3 — Filtre de sortida | 16 | pendent, amb error conegut — vegeu "Limitacions conegudes" |
| L4 — Detecció de crisi | 98 | pendent — vegeu "Limitacions conegudes" |
| Altres (helpers, integració) | 36 | n/a |
| Total | 324 |
Última extracció de xifres: 2026-04-29.
Versió del document: v0.1 (esborrany, pendent de revisió legal).
Limitacions conegudes (transparència honesta)
Com qualsevol sistema d'IA, HolaNolis té errors. Publicar-los obertament és part del nostre compromís de seguretat — no fingir perfecció.
L3 — Filtre de sortida davant diagnòstic declaratiu
Detectat: 2026-04-29. Estat: pegat en preparació.
La nostra suite de tests automatitzats va detectar que el filtre de sortida (capa L3) no cobreix patrons declaratius directes del tipus "you have X" + imperatiu "you should Y". Els patrons tradicionals modals ("might have", "could be") sí que es filtren. El pegat està identificat i pendent de desplegament.
Implicació pràctica: en el període entre la detecció i el desplegament del pegat, una resposta de Nolis del tipus "tens depressió i hauries d'anar a teràpia" podria no ser interceptada per L3, encara que les capes L1 (entrada) i L2 (system prompt de Nolis) ja estan dissenyades per evitar generar-la.
Cobertura per franja d'edat
Avui no podem quantificar la cobertura de tests per franja d'edat (10-12 / 13-15 / 16-18 / 19-20) perquè els tests no estan etiquetats per edat. Això està a la llista de millores.
Taxes reals de detecció
Encara no publiquem taxes de falsos positius (Nolis interpreta erròniament alguna cosa segura com a risc) ni falsos negatius (Nolis no detecta una senyal real de risc). Per fer-ho necessitem un corpus etiquetat per humans especialistes, en procés de construcció.
El que el sistema NO fa
Per evitar confusions — i perquè creiem que un company d'IA per a menors ha de ser explícit sobre els seus límits:
No diagnostica. HolaNolis no diu "tens ansietat", "estàs deprimit" ni "tens TDAH". Només els professionals sanitaris ho poden fer.
No prescriu. No recomana medicació, dietes, teràpies concretes ni rutines clíniques.
No substitueix un professional. Si el teu fill o filla necessita ajuda professional, HolaNolis no és aquest servei. Les alertes que envia als tutors són una senyal, no un diagnòstic.
No alerta automàticament les forces de seguretat ni els serveis socials. La decisió sobre què fer amb una alerta sempre és del tutor.
No grava àudio ambiental, no activa la càmera sense permís, no rastreja la ubicació del menor. El sistema només processa el que el menor escriu (o envia com a imatge) dins del xat.
No garanteix la impossibilitat d'evasió. Dissenyem contra aquest escenari, però no afirmem haver eliminat el risc que un menor amb voluntat expressa de saltar-se el sistema ho aconsegueixi en algun cas.
Procés de revisió d'incidents
Quan un usuari reporta un error de seguretat — un missatge que hauria d'haver estat bloquejat i no es va bloquejar, una alerta que es va disparar quan no corresponia, o qualsevol altre comportament inesperat — seguim aquest procés:
- Acusament de recepció en un termini raonable (objectiu: 72 hores hàbils).
- Reproducció del cas, en la mesura que la informació facilitada ho permeti.
- Anàlisi i, si escau, correcció al sistema, acompanyada d'un test que detecti l'error per evitar regressions futures.
- Comunicació a l'usuari que va reportar l'error quan s'hagi tancat el cicle.
No publiquem avui un responsible disclosure formal amb terminis contractuals. Està a la llista de coses a formalitzar a la propera fase del producte.
Reporta un error
Si trobes un cas on el sistema:
- Va bloquejar quelcom que no hauria d'haver bloquejat (fals positiu).
- No va bloquejar quelcom que sí hauria d'haver bloquejat (fals negatiu).
- Va disparar una alerta sense motiu clar (fals positiu de crisi).
- No va disparar una alerta quan ho hauria d'haver fet (fals negatiu de crisi).
- Va produir un consell mèdic, diagnòstic o prescripció.
- Va ser manipulat per un menor o un tercer per saltar-se les regles.
Si us plau, escriu-nos a seguridad@holanolis.com incloent-hi:
- Què esperaves que passés.
- Què va passar realment.
- Passos per reproduir-ho (si els tens).
- Captures de pantalla, si és segur compartir-les.
- Idioma i versió de l'aplicació, si els coneixes.
El teu report ens ajuda a millorar el sistema. El tractem amb serietat.
Document v0.1 — pendent de revisió legal i d'auditoria externa abans de la seva publicació oficial. Les xifres de tests reflecteixen l'última extracció del 2026-04-29. Les taxes reals de detecció i falsos positius/negatius es publicaran quan el corpus etiquetat estigui llest.