Nota legal preliminar. Este documento describe el diseño y los mecanismos de seguridad de HolaNolis. No es una declaración de cumplimiento legal y está pendiente de revisión por terceros (asesoría jurídica y, en su momento, auditoría externa). Si encuentras un caso donde el sistema falla o produce un resultado inesperado, repórtalo a seguridad@holanolis.com (ver sección final, Reporta un fallo).

HolaNolis es un compañero conversacional con inteligencia artificial diseñado para menores de 10 a 20 años, supervisado por un tutor (madre, padre o tutor/a legal). Esta página explica, en lenguaje accesible, cómo funciona el sistema de seguridad que protege esa conversación.

¿Qué garantiza HolaNolis y qué no?

Lo que HolaNolis no garantiza

No garantiza la ausencia total de fallos. Como en cualquier sistema basado en inteligencia artificial, ningún filtro es perfecto. Las tasas de detección y filtrado son altas, pero no del 100 %, y las publicamos abajo de la forma más honesta que podemos.
No garantiza que sustituya a un profesional sanitario, a un psicólogo, a un servicio social o a una emergencia médica. HolaNolis no es un servicio de salud mental.
No garantiza que un menor con voluntad expresa de saltarse el sistema no pueda, en algún caso, lograrlo. Diseñamos para reducir esa probabilidad — no para reducirla a cero, porque eso no es honesto.

Lo que HolaNolis sí ofrece

Una arquitectura multicapa, descrita más abajo, diseñada para reducir el riesgo de exposición a contenido dañino para menores.
Un mecanismo para alertar al tutor cuando el sistema detecta señales compatibles con una situación de crisis (ideación suicida, autolesión, trastornos alimentarios graves, abuso, grooming, sustancias).
Transparencia operativa: este documento, las métricas técnicas, y un canal abierto para que los usuarios reporten fallos.

Pipeline de seguridad — cuatro capas

Cada mensaje que un menor escribe a HolaNolis pasa por cuatro capas de verificación. Cada capa está diseñada para detectar un tipo distinto de riesgo; juntas ofrecen una defensa redundante (lo que se denomina defensa en profundidad). Si una capa falla, la siguiente puede capturar el problema.

Capa 1 — Filtro de entrada (antes del modelo de IA)

Qué hace. Antes de que el mensaje llegue al modelo de IA, el sistema lo escanea contra:

Listas de palabras clave (suicidio, autolesión, abuso, sustancias, contenido sexual, etc.).
Patrones de texto evasivo (escritura con números, caracteres invisibles, leetspeak, mezcla de alfabetos).
Detectores de información personal identificable (PII) como teléfonos, direcciones, DNIs.
Patrones de inyección de instrucciones (intentos del menor o de un tercero por manipular las instrucciones del sistema).

Qué no hace. No comprende contexto profundo. Una frase como "me muero de risa" puede activar una palabra clave que después debe filtrarse en otra capa. Por eso esta capa, sola, no basta.

Tiempo típico. Por debajo de 10 milisegundos.

Capa 2 — Reglas de seguridad dentro del modelo de IA

Qué hace. El modelo de IA recibe, como parte de sus instrucciones de sistema, un conjunto de reglas no negociables (categorías prohibidas, líneas rojas, comportamientos prescriptivos a evitar). Estas reglas viajan con cada conversación y están diseñadas para que el modelo no las "olvide" ni se las "hable" mediante manipulación (jailbreak, juego de rol, presión emocional).

Qué no hace. Un modelo de IA puede, en algunos casos, ser persuadido a ignorar instrucciones. Por eso esta capa nunca opera sola; las capas 1 y 3 existen precisamente porque el modelo puede fallar.

Capa 3 — Filtro de salida (después del modelo de IA)

Qué hace. Antes de mostrar la respuesta de la IA al menor, el sistema la revisa contra:

Líneas rojas (consejo médico, diagnóstico, prescripción, contenido explícito, etc.).
Adecuación a la edad declarada del menor.
Filtraciones de información personal.
Coherencia con la persona y el tono del compañero.

Si la respuesta no pasa, el sistema la regenera, la sustituye por una respuesta segura, o suspende la conversación y muestra recursos estáticos (según el caso).

Qué no hace. No puede recuperar el coste computacional de haber generado una respuesta que luego se descarta. Por eso no es la primera barrera, sino la última red.

Capa 4 — Detección de crisis y alerta al tutor

Qué hace. En paralelo a las tres capas anteriores, el sistema clasifica los mensajes contra un conjunto de categorías de crisis (ideación suicida, autolesión, trastornos alimentarios, abuso/grooming, sustancias, violencia hacia terceros). Asigna un nivel de severidad (alta, media, baja) y, cuando corresponde, dispara una alerta al tutor por email y notificación push.

Cómo lo ve el menor. El menor no recibe un mensaje del tipo "tu tutor ha sido notificado". La detección es invisible para el menor por diseño — si los menores aprendieran qué frases concretas disparan una alerta, evitarían decirlas y el sistema dejaría de funcionar.

Cómo lo ve el tutor. El tutor recibe una alerta con la categoría, la severidad, el momento, y un enlace al panel donde puede ver el contexto relevante de la conversación. Las alertas de crisis son siempre gratuitas, incluso para usuarios sin suscripción premium.

Categorías que el sistema rastrea

El sistema rastrea, sin ánimo exhaustivo, las siguientes categorías. La relación detallada de cada una y su tratamiento están en la documentación técnica interna; aquí ofrecemos un resumen accesible.

Categoría	Qué cubre (resumen)	Acción típica
Ideación suicida / autolesión	Expresiones de querer hacerse daño o de no querer seguir viviendo	Alerta al tutor, recursos de ayuda inmediatos
Trastornos de la conducta alimentaria	Restricción extrema, purgas, dismorfia	Alerta al tutor, redirigir a profesional
Abuso, grooming, sextorsión	Adultos que contactan al menor con intención sexual o coercitiva	Alerta al tutor, recursos especializados
Sustancias	Consumo, intercambio, búsqueda de drogas o alcohol	Alerta al tutor, recursos informativos
Violencia hacia terceros	Amenazas, planes de daño a otra persona	Alerta al tutor, recursos según el caso
Contenido sexual explícito	Material inapropiado para la edad	Filtrado en entrada y/o salida
Información personal identificable	Teléfonos, direcciones, datos sensibles compartidos sin protección	Filtrado o alerta según contexto
Intentos de manipulación del sistema	Jailbreak, inyección de prompt, suplantación	Filtrado, registrado en audit log

Esta tabla es indicativa. La tipología completa y los criterios de severidad se mantienen como documentación técnica interna por dos razones: (a) evitar que se publique un mapa de evasión, y (b) porque la tipología evoluciona con el sistema.

Métricas (preliminares)

Aviso de honestidad. A día de hoy podemos publicar el conteo de tests automatizados que protegen cada capa. Las tasas reales de detección, falsos positivos y falsos negativos requieren ejecutar la suite contra un corpus etiquetado por terceros y publicarlas con rigor estadístico — y preferimos no publicar cifras que no podamos defender. Cuando ese trabajo esté hecho, lo publicaremos aquí.

Capa	Tests automatizados	Tasa de detección medida
L1 — Filtro de entrada	139	pendiente — ver "Limitaciones conocidas"
L2 — Reglas de sistema (HARDSKILL)	35	pendiente — ver "Limitaciones conocidas"
L3 — Filtro de salida	16	pendiente, con bug conocido — ver "Limitaciones conocidas"
L4 — Detección de crisis	98	pendiente — ver "Limitaciones conocidas"
Otros (helpers, integration)	36	n/a
Total	324

Última extracción de cifras: 2026-04-29.
Versión del documento: v0.1 (borrador, pendiente de revisión legal).

Limitaciones conocidas (transparencia honesta)

Como cualquier sistema de IA, HolaNolis tiene fallos. Publicarlos abiertamente es parte de nuestro compromiso de seguridad — no fingir perfección.

L3 — Filtro de salida ante diagnóstico declarativo

Detectado: 2026-04-29. Estado: parche en preparación.

Nuestra suite de tests automatizados detectó que el filtro de salida (capa L3) no cubre patrones declarativos directos del tipo "you have X" + imperativo "you should Y". Los patrones tradicionales modales ("might have", "could be") sí se filtran. El parche está identificado y pendiente de despliegue.

Implicación práctica: en el periodo entre detección y despliegue del parche, una respuesta de Nolis del tipo "tienes depresión y deberías ir a terapia" podría no ser interceptada por L3, aunque las capas L1 (entrada) y L2 (system prompt de Nolis) ya están diseñadas para evitar generarla.

Cobertura por franja de edad

Hoy no podemos cuantificar la cobertura de tests por franja de edad (10-12 / 13-15 / 16-18 / 19-20) porque los tests no están etiquetados por edad. Esto está en la lista de mejoras.

Tasas reales de detección

Aún no publicamos tasas de falsos positivos (Nolis interpreta erróneamente algo seguro como riesgo) ni falsos negativos (Nolis no detecta una señal real de riesgo). Para hacerlo necesitamos un corpus etiquetado por humanos especialistas, en proceso de construcción.

Lo que el sistema NO hace

Para evitar confusiones — y porque creemos que un compañero de IA para menores debe ser explícito sobre sus límites:

No diagnostica. HolaNolis no dice "tienes ansiedad", "estás deprimido" ni "tienes TDAH". Solo profesionales sanitarios pueden hacerlo.

No prescribe. No recomienda medicación, dietas, terapias concretas ni rutinas clínicas.

No sustituye a un profesional. Si tu hijo o tu hija necesita ayuda profesional, HolaNolis no es ese servicio. Las alertas que envía a los tutores son una señal, no un diagnóstico.

No alerta automáticamente a las fuerzas de seguridad ni a los servicios sociales. La decisión sobre qué hacer con una alerta es siempre del tutor.

No graba audio ambiental, no activa la cámara sin permiso, no rastrea la ubicación del menor. El sistema solo procesa lo que el menor escribe (o envía como imagen) dentro del chat.

No garantiza la imposibilidad de evasión. Diseñamos contra ese escenario, pero no afirmamos haber eliminado el riesgo de que un menor con voluntad expresa de saltarse el sistema lo logre en algún caso.

Proceso de revisión de incidentes

Cuando un usuario reporta un fallo de seguridad — un mensaje que debería haberse bloqueado y no se bloqueó, una alerta que se disparó cuando no correspondía, o cualquier otro comportamiento inesperado — seguimos este proceso:

Acuse de recibo en un plazo razonable (objetivo: 72 horas hábiles).
Reproducción del caso, en la medida en que la información facilitada lo permita.
Análisis y, si procede, corrección en el sistema, acompañada de un test que detecte el fallo para evitar regresiones futuras.
Comunicación al usuario que reportó el fallo cuando se haya cerrado el ciclo.

No publicamos hoy un responsible disclosure formal con plazos contractuales. Está en la lista de cosas a formalizar en la próxima fase del producto.

Reporta un fallo

Si encuentras un caso donde el sistema:

Bloqueó algo que no debería haber bloqueado (falso positivo).
No bloqueó algo que sí debería haber bloqueado (falso negativo).
Disparó una alerta sin motivo claro (falso positivo de crisis).
No disparó una alerta cuando debería (falso negativo de crisis).
Produjo un consejo médico, diagnóstico o prescripción.
Fue manipulado por un menor o un tercero para saltarse las reglas.

Por favor escríbenos a seguridad@holanolis.com incluyendo:

Qué esperabas que pasara.
Qué pasó en realidad.
Pasos para reproducirlo (si los tienes).
Capturas de pantalla, si es seguro compartirlas.
Idioma y versión de la aplicación, si los conoces.

Tu reporte nos ayuda a hacer mejor el sistema. Lo tratamos con seriedad.

Seguridad de HolaNolis