Seguridad de HolaNolis
Cómo funciona, qué cubre y qué no
Nota legal preliminar. Este documento describe el diseño y los mecanismos de seguridad de HolaNolis. No es una declaración de cumplimiento legal y está pendiente de revisión por terceros (asesoría jurídica y, en su momento, auditoría externa). Si encuentras un caso donde el sistema falla o produce un resultado inesperado, repórtalo a seguridad@holanolis.com (ver sección final, Reporta un fallo).
HolaNolis es un compañero conversacional con inteligencia artificial diseñado para menores de 10 a 20 años, supervisado por un tutor (madre, padre o tutor/a legal). Esta página explica, en lenguaje accesible, cómo funciona el sistema de seguridad que protege esa conversación.
¿Qué garantiza HolaNolis y qué no?
Lo que HolaNolis no garantiza
- No garantiza la ausencia total de fallos. Como en cualquier sistema basado en inteligencia artificial, ningún filtro es perfecto. Las tasas de detección y filtrado son altas, pero no del 100 %, y las publicamos abajo de la forma más honesta que podemos.
- No garantiza que sustituya a un profesional sanitario, a un psicólogo, a un servicio social o a una emergencia médica. HolaNolis no es un servicio de salud mental.
- No garantiza que un menor con voluntad expresa de saltarse el sistema no pueda, en algún caso, lograrlo. Diseñamos para reducir esa probabilidad — no para reducirla a cero, porque eso no es honesto.
Lo que HolaNolis sí ofrece
- Una arquitectura multicapa, descrita más abajo, diseñada para reducir el riesgo de exposición a contenido dañino para menores.
- Un mecanismo para alertar al tutor cuando el sistema detecta señales compatibles con una situación de crisis (ideación suicida, autolesión, trastornos alimentarios graves, abuso, grooming, sustancias).
- Transparencia operativa: este documento, las métricas técnicas, y un canal abierto para que los usuarios reporten fallos.
Pipeline de seguridad — cuatro capas
Cada mensaje que un menor escribe a HolaNolis pasa por cuatro capas de verificación. Cada capa está diseñada para detectar un tipo distinto de riesgo; juntas ofrecen una defensa redundante (lo que se denomina defensa en profundidad). Si una capa falla, la siguiente puede capturar el problema.
Capa 1 — Filtro de entrada (antes del modelo de IA)
Qué hace. Antes de que el mensaje llegue al modelo de IA, el sistema lo escanea contra:
- Listas de palabras clave (suicidio, autolesión, abuso, sustancias, contenido sexual, etc.).
- Patrones de texto evasivo (escritura con números, caracteres invisibles, leetspeak, mezcla de alfabetos).
- Detectores de información personal identificable (PII) como teléfonos, direcciones, DNIs.
- Patrones de inyección de instrucciones (intentos del menor o de un tercero por manipular las instrucciones del sistema).
Qué no hace. No comprende contexto profundo. Una frase como "me muero de risa" puede activar una palabra clave que después debe filtrarse en otra capa. Por eso esta capa, sola, no basta.
Tiempo típico. Por debajo de 10 milisegundos.
Capa 2 — Reglas de seguridad dentro del modelo de IA
Qué hace. El modelo de IA recibe, como parte de sus instrucciones de sistema, un conjunto de reglas no negociables (categorías prohibidas, líneas rojas, comportamientos prescriptivos a evitar). Estas reglas viajan con cada conversación y están diseñadas para que el modelo no las "olvide" ni se las "hable" mediante manipulación (jailbreak, juego de rol, presión emocional).
Qué no hace. Un modelo de IA puede, en algunos casos, ser persuadido a ignorar instrucciones. Por eso esta capa nunca opera sola; las capas 1 y 3 existen precisamente porque el modelo puede fallar.
Capa 3 — Filtro de salida (después del modelo de IA)
Qué hace. Antes de mostrar la respuesta de la IA al menor, el sistema la revisa contra:
- Líneas rojas (consejo médico, diagnóstico, prescripción, contenido explícito, etc.).
- Adecuación a la edad declarada del menor.
- Filtraciones de información personal.
- Coherencia con la persona y el tono del compañero.
Si la respuesta no pasa, el sistema la regenera, la sustituye por una respuesta segura, o suspende la conversación y muestra recursos estáticos (según el caso).
Qué no hace. No puede recuperar el coste computacional de haber generado una respuesta que luego se descarta. Por eso no es la primera barrera, sino la última red.
Capa 4 — Detección de crisis y alerta al tutor
Qué hace. En paralelo a las tres capas anteriores, el sistema clasifica los mensajes contra un conjunto de categorías de crisis (ideación suicida, autolesión, trastornos alimentarios, abuso/grooming, sustancias, violencia hacia terceros). Asigna un nivel de severidad (alta, media, baja) y, cuando corresponde, dispara una alerta al tutor por email y notificación push.
Cómo lo ve el menor. El menor no recibe un mensaje del tipo "tu tutor ha sido notificado". La detección es invisible para el menor por diseño — si los menores aprendieran qué frases concretas disparan una alerta, evitarían decirlas y el sistema dejaría de funcionar.
Cómo lo ve el tutor. El tutor recibe una alerta con la categoría, la severidad, el momento, y un enlace al panel donde puede ver el contexto relevante de la conversación. Las alertas de crisis son siempre gratuitas, incluso para usuarios sin suscripción premium.
Categorías que el sistema rastrea
El sistema rastrea, sin ánimo exhaustivo, las siguientes categorías. La relación detallada de cada una y su tratamiento están en la documentación técnica interna; aquí ofrecemos un resumen accesible.
| Categoría | Qué cubre (resumen) | Acción típica |
|---|---|---|
| Ideación suicida / autolesión | Expresiones de querer hacerse daño o de no querer seguir viviendo | Alerta al tutor, recursos de ayuda inmediatos |
| Trastornos de la conducta alimentaria | Restricción extrema, purgas, dismorfia | Alerta al tutor, redirigir a profesional |
| Abuso, grooming, sextorsión | Adultos que contactan al menor con intención sexual o coercitiva | Alerta al tutor, recursos especializados |
| Sustancias | Consumo, intercambio, búsqueda de drogas o alcohol | Alerta al tutor, recursos informativos |
| Violencia hacia terceros | Amenazas, planes de daño a otra persona | Alerta al tutor, recursos según el caso |
| Contenido sexual explícito | Material inapropiado para la edad | Filtrado en entrada y/o salida |
| Información personal identificable | Teléfonos, direcciones, datos sensibles compartidos sin protección | Filtrado o alerta según contexto |
| Intentos de manipulación del sistema | Jailbreak, inyección de prompt, suplantación | Filtrado, registrado en audit log |
Esta tabla es indicativa. La tipología completa y los criterios de severidad se mantienen como documentación técnica interna por dos razones: (a) evitar que se publique un mapa de evasión, y (b) porque la tipología evoluciona con el sistema.
Métricas (preliminares)
Aviso de honestidad. A día de hoy podemos publicar el conteo de tests automatizados que protegen cada capa. Las tasas reales de detección, falsos positivos y falsos negativos requieren ejecutar la suite contra un corpus etiquetado por terceros y publicarlas con rigor estadístico — y preferimos no publicar cifras que no podamos defender. Cuando ese trabajo esté hecho, lo publicaremos aquí.
| Capa | Tests automatizados | Tasa de detección medida |
|---|---|---|
| L1 — Filtro de entrada | 139 | pendiente — ver "Limitaciones conocidas" |
| L2 — Reglas de sistema (HARDSKILL) | 35 | pendiente — ver "Limitaciones conocidas" |
| L3 — Filtro de salida | 16 | pendiente, con bug conocido — ver "Limitaciones conocidas" |
| L4 — Detección de crisis | 98 | pendiente — ver "Limitaciones conocidas" |
| Otros (helpers, integration) | 36 | n/a |
| Total | 324 |
Última extracción de cifras: 2026-04-29.
Versión del documento: v0.1 (borrador, pendiente de revisión legal).
Limitaciones conocidas (transparencia honesta)
Como cualquier sistema de IA, HolaNolis tiene fallos. Publicarlos abiertamente es parte de nuestro compromiso de seguridad — no fingir perfección.
L3 — Filtro de salida ante diagnóstico declarativo
Detectado: 2026-04-29. Estado: parche en preparación.
Nuestra suite de tests automatizados detectó que el filtro de salida (capa L3) no cubre patrones declarativos directos del tipo "you have X" + imperativo "you should Y". Los patrones tradicionales modales ("might have", "could be") sí se filtran. El parche está identificado y pendiente de despliegue.
Implicación práctica: en el periodo entre detección y despliegue del parche, una respuesta de Nolis del tipo "tienes depresión y deberías ir a terapia" podría no ser interceptada por L3, aunque las capas L1 (entrada) y L2 (system prompt de Nolis) ya están diseñadas para evitar generarla.
Cobertura por franja de edad
Hoy no podemos cuantificar la cobertura de tests por franja de edad (10-12 / 13-15 / 16-18 / 19-20) porque los tests no están etiquetados por edad. Esto está en la lista de mejoras.
Tasas reales de detección
Aún no publicamos tasas de falsos positivos (Nolis interpreta erróneamente algo seguro como riesgo) ni falsos negativos (Nolis no detecta una señal real de riesgo). Para hacerlo necesitamos un corpus etiquetado por humanos especialistas, en proceso de construcción.
Lo que el sistema NO hace
Para evitar confusiones — y porque creemos que un compañero de IA para menores debe ser explícito sobre sus límites:
No diagnostica. HolaNolis no dice "tienes ansiedad", "estás deprimido" ni "tienes TDAH". Solo profesionales sanitarios pueden hacerlo.
No prescribe. No recomienda medicación, dietas, terapias concretas ni rutinas clínicas.
No sustituye a un profesional. Si tu hijo o tu hija necesita ayuda profesional, HolaNolis no es ese servicio. Las alertas que envía a los tutores son una señal, no un diagnóstico.
No alerta automáticamente a las fuerzas de seguridad ni a los servicios sociales. La decisión sobre qué hacer con una alerta es siempre del tutor.
No graba audio ambiental, no activa la cámara sin permiso, no rastrea la ubicación del menor. El sistema solo procesa lo que el menor escribe (o envía como imagen) dentro del chat.
No garantiza la imposibilidad de evasión. Diseñamos contra ese escenario, pero no afirmamos haber eliminado el riesgo de que un menor con voluntad expresa de saltarse el sistema lo logre en algún caso.
Proceso de revisión de incidentes
Cuando un usuario reporta un fallo de seguridad — un mensaje que debería haberse bloqueado y no se bloqueó, una alerta que se disparó cuando no correspondía, o cualquier otro comportamiento inesperado — seguimos este proceso:
- Acuse de recibo en un plazo razonable (objetivo: 72 horas hábiles).
- Reproducción del caso, en la medida en que la información facilitada lo permita.
- Análisis y, si procede, corrección en el sistema, acompañada de un test que detecte el fallo para evitar regresiones futuras.
- Comunicación al usuario que reportó el fallo cuando se haya cerrado el ciclo.
No publicamos hoy un responsible disclosure formal con plazos contractuales. Está en la lista de cosas a formalizar en la próxima fase del producto.
Reporta un fallo
Si encuentras un caso donde el sistema:
- Bloqueó algo que no debería haber bloqueado (falso positivo).
- No bloqueó algo que sí debería haber bloqueado (falso negativo).
- Disparó una alerta sin motivo claro (falso positivo de crisis).
- No disparó una alerta cuando debería (falso negativo de crisis).
- Produjo un consejo médico, diagnóstico o prescripción.
- Fue manipulado por un menor o un tercero para saltarse las reglas.
Por favor escríbenos a seguridad@holanolis.com incluyendo:
- Qué esperabas que pasara.
- Qué pasó en realidad.
- Pasos para reproducirlo (si los tienes).
- Capturas de pantalla, si es seguro compartirlas.
- Idioma y versión de la aplicación, si los conoces.
Tu reporte nos ayuda a hacer mejor el sistema. Lo tratamos con seriedad.
Documento v0.1 — pendiente de revisión legal y de auditoría externa antes de su publicación oficial. Las cifras de tests reflejan la última extracción del 2026-04-29. Las tasas reales de detección y falsos positivos/negativos se publicarán cuando el corpus etiquetado esté listo.