¿Los datos se envían a algún servidor?

No. Todo el procesamiento ocurre en tu navegador mediante JavaScript. Puedes verificarlo en DevTools Network: no hay peticiones HTTP durante el análisis.

¿Qué tipos de datos sensibles detecta SanitAI?

SanitAI detecta más de 20 tipos: emails, teléfonos (ES, UK, US), IBANs, tarjetas bancarias, API keys de OpenAI/AWS/GCP/GitHub, contraseñas y credenciales contextuales, IPs, DNI/NIE, claves SSH/PGP/JWT, wallets de criptomonedas, rutas de sistema y más.

¿Puede SanitAI limpiar archivos Excel con datos personales?

Sí. SanitAI usa SheetJS en el cliente para recorrer todas las celdas, aplica las reglas de detección y genera un .xlsx limpio descargable manteniendo la estructura original.

¿Cumple SanitAI con el GDPR?

SanitAI está diseñada con privacidad por diseño. Al procesar todo localmente sin enviar datos a ningún servidor, no requiere acuerdo de tratamiento de datos (DPA) y es compatible con los principios del GDPR.

¿Qué diferencia hay entre modo Básico y Paranoico?

El modo Básico cubre PII estándar: email, teléfono, DNI/NIE, IBAN, tarjetas, API keys, IPs y credenciales contextuales. El modo Paranoico añade nombres propios, MACs, hashes, tokens de alta entropía y URLs con credenciales.

SanitAI — Sanitiza tus datos antes de enviarlos a la IA

Modo:

Tu texto o prompt

Reglas activas

Resumen de sesión

0 datos protegidos

Privacy Score 100%

hallazgos

análisis

archivos

categorías

Cobertura

📧 Email / Teléfono✓

🪪 DNI / NIE✓

🏦 IBAN bancario✓

💳 Tarjetas (13–19 d.)✓

🔑 API Keys (OpenAI / AWS / GCP)✓

🔒 SSH / PGP / JWT✓

🌐 IPv4 / Rutas sistema✓

🛂 Credenciales contextuales✓

₿ BTC / ETH wallets✓

📊 .xlsx · .docx✓

🧠 Nombres propios+ paranoico

🔗 URLs con credenciales+ paranoico

Cómo funciona SanitAI

SanitAI aplica un motor de detección de múltiples capas sobre tu texto antes de que salga de tu dispositivo. Ningún carácter llega a ningún servidor externo.

Normalización del texto (Shadow Pass)

Antes de aplicar cualquier regla, el motor crea una copia interna normalizada del texto que convierte variantes de ofuscación como [at] o (dot) en sus formas estándar. También normaliza caracteres Unicode equivalentes y elimina zero-width characters invisibles que podrían ocultar datos. Esto garantiza que un email escrito como usuario arroba empresa punto com sea detectado con la misma precisión que una dirección convencional.

Motor de reglas con expresiones regulares calibradas

Cada tipo de dato sensible tiene su propia expresión regular diseñada para minimizar falsos positivos. La detección de IBANs valida que el total de dígitos sea exactamente 22 mediante un filtro posterior. Las API keys de AWS se detectan por su prefijo AKIA más la longitud esperada. Las credenciales contextuales como password=valor se detectan por estructura real, no por palabras aisladas, eliminando los falsos positivos que afectan a soluciones simples.

Análisis de entropía de Shannon

En modo Paranoico, el motor calcula la entropía de Shannon de cada token alfanumérico largo. Cualquier cadena de más de 20 caracteres con entropía superior a 3.8 bits/carácter se considera un posible secreto aunque no tenga prefijo reconocible. Esta heurística detecta tokens de CI/CD, Bearer tokens, contraseñas generadas automáticamente y secrets de servicios cloud sin nombre estándar: exactamente los datos que las regex convencionales dejan pasar.

Sustitución y Privacy Score

Cada detección reemplaza el valor original por un token descriptivo como [EMAIL] o [CREDENTIAL]. Paralelamente, el sistema calcula un Privacy Score ponderando el tipo de dato: los datos financieros y credenciales suman 5 puntos, los datos personales 2, y los de infraestructura 1. El resultado es un indicador de riesgo inmediato: verde (seguro, 80-100), amarillo (revisar, 50-79) o rojo (riesgo alto, menos de 50).

Soporte para archivos Excel y Word

Los archivos .xlsx se procesan celda a celda usando SheetJS. Los documentos .docx se convierten a texto plano con Mammoth.js. En ambos casos el texto extraído pasa por exactamente el mismo motor de sanitización que el texto pegado manualmente. El resultado descargable mantiene el sufijo _sanitizado y el MIME type correcto para cada formato original.

Procesamiento 100% local, verificable

Todo ocurre dentro del proceso del navegador. Puedes verificarlo abriendo las DevTools (pestaña Network): durante el análisis no se produce ninguna petición HTTP. No hay servidor, no hay base de datos, no hay cuenta de usuario, no hay telemetría. El archivo HTML es autocontenido y puede usarse sin conexión una vez descargado.

Por qué la privacidad importa al usar IA generativa

Los modelos de lenguaje como ChatGPT, Claude o Gemini son herramientas extraordinariamente útiles. Pero cada prompt que envías es texto que procesa un servidor externo, con implicaciones legales y de seguridad que muchas organizaciones todavía subestiman.

📋 El problema del copia-pega en logs y documentos

Uno de los vectores más comunes de exposición accidental ocurre cuando un desarrollador o técnico de soporte pega directamente un log de sistema, un stack trace o un archivo de configuración en un chat de IA para pedir ayuda. Esos archivos suelen contener cadenas de conexión con credenciales, tokens de autenticación, direcciones IP internas, nombres de usuario y rutas de ficheros. En una fracción de segundo, datos que deberían ser confidenciales han viajado a servidores de un proveedor externo.

⚖️ GDPR y la transferencia de datos a proveedores de IA

El Reglamento General de Protección de Datos (GDPR) exige que cualquier transferencia de datos personales a un tercero esté respaldada por un contrato de tratamiento de datos (DPA). Los proveedores de IA ofrecen sus propios DPAs, pero en muchas organizaciones el uso de estas herramientas ocurre antes de que los departamentos legales hayan evaluado esos contratos. Pegar el nombre, email o número de teléfono de un cliente en un prompt puede ser, técnicamente, una transferencia de datos personales que incumple el GDPR y puede conllevar multas de hasta el 4% del volumen de negocio global.

🔑 El riesgo específico de las API keys

Las claves de acceso a servicios cloud son activos de seguridad críticos. Una API key de AWS con permisos amplios puede dar acceso completo a recursos cloud, generar costes ilimitados o exponer datos de producción. Sin embargo, es habitual encontrarlas en archivos de configuración que se comparten con IA para pedir ayuda sin pensar. SanitAI detecta más de seis formatos distintos de API keys, incluyendo OpenAI, AWS, GCP, GitHub, y tokens JWT de sesión activa.

🏢 Buenas prácticas para equipos y empresas

La solución más efectiva no es prohibir el uso de IA en la empresa, sino establecer hábitos de higiene de datos: (1) sanitizar cualquier contenido antes de pegarlo en una IA, (2) usar cuentas corporativas con DPA firmado cuando se trabaja con datos de clientes, (3) no pegar credenciales activas en ningún chat aunque sea para pedir ayuda técnica, y (4) revisar el output de la IA antes de incorporarlo a sistemas de producción. SanitAI está diseñada para ser ese primer paso de higiene, rápido y sin fricción.

Qué detecta SanitAI

El motor cubre más de 20 categorías de datos sensibles, con reglas específicas calibradas para minimizar falsos positivos.

📧 Emails y comunicación

Direcciones en formato estándar y variantes ofuscadas con [at], (dot) o caracteres Unicode equivalentes.

⚠ Riesgo: exposición de contactos de clientes, empleados o proveedores en logs de soporte.

📱 Teléfonos (ES, UK, US, LATAM)

Móviles y fijos españoles con o sin +34, números UK, US (+1) y patrón internacional genérico. Admite separadores variables: espacios, puntos y guiones.

⚠ Riesgo: datos de contacto de clientes en tickets, contratos o reportes de CRM.

🏦 IBANs y datos bancarios

IBAN español con o sin espacios, IBANs internacionales de cualquier país, y secuencias numéricas en contexto bancario explícito. Validación posterior de longitud exacta.

🔴 Riesgo crítico PCI DSS. Exposición puede facilitar fraude bancario.

💳 Tarjetas de crédito y débito

Secuencias de 13 a 19 dígitos con separadores flexibles. Filtro posterior valida longitud exacta para evitar confusión con otros números.

🔴 Riesgo crítico PCI DSS nivel 1. Sanciones regulatorias graves.

🔑 API Keys (OpenAI, AWS, GCP, GitHub)

Patrones específicos por proveedor más detección de tokens sin prefijo conocido mediante análisis de entropía en modo Paranoico.

🔴 Riesgo crítico. Una API key filtrada puede generar costes ilimitados o acceso a datos de producción.

🔒 Contraseñas y credenciales contextuales

Detecta valores tras keywords como password=, token: o api_key=. Admite comillas, sin comillas, guiones bajos y prefijos adicionales.

🔴 El vector más frecuente en fugas accidentales al pegar configs en chats.

🌐 Direcciones IP (v4 y v6)

IPv4 estándar e IPv4 ofuscada con comas o espacios. IPv6 completo. Filtro de validación de octetos (0-255) para evitar falsos positivos con fechas.

⚠ Revelar topología de red interna puede facilitar ataques dirigidos.

🥚 DNI, NIE y documentos de identidad

DNI español (8 dígitos + letra) y NIE (X/Y/Z + 7 dígitos + letra). Ambos formatos en mayúsculas y minúsculas.

🔴 Identificador único de persona física especialmente protegido bajo GDPR.

🔐 Claves SSH, PGP y JWT

Bloques completos BEGIN RSA PRIVATE KEY y variantes DSA, EC, OpenSSH. Tokens JWT por patrón de tres segmentos base64.

🔴 Una clave privada SSH expuesta permite acceso directo a servidores sin contraseña.

₿ Wallets de criptomonedas

Bitcoin legacy (1...), P2SH (3...) y bech32 (bc1...). Ethereum (0x + 40 caracteres hexadecimales).

⚠ Vincular identidad a una wallet compromete la privacidad financiera.

📁 Rutas de sistema con username

Rutas Unix/Mac (/Users/nombre/, /home/nombre/) y rutas Windows. El username se reemplaza por [USER] preservando el resto.

⚠ Los nombres de usuario en rutas pueden revelar identidades corporativas.

🧠 Nombres propios (Modo Paranoico)

Palabras con mayúscula en mitad de oración tratadas como posibles nombres propios. Lista de Stop Words evita censurar preposiciones, conjunciones y saludos comunes.

⚠ Útil para documentos con datos de clientes donde el nombre aparece en contexto narrativo.

Casos de uso reales

SanitAI es útil en cualquier contexto donde texto con datos sensibles deba pasar por una herramienta de IA externa o ser compartido con terceros.

👨‍💻

Desarrolladores: depuración con IA

Cuando un desarrollador pega un stack trace, archivo de configuración o log de error en ChatGPT, ese contenido puede incluir cadenas de conexión a bases de datos, tokens de sesión, rutas con nombres de usuario o IPs de servidores de producción. SanitAI elimina esos datos en segundos antes de pegar el contenido en el chat.

🏢

Equipos de soporte técnico

Los agentes de soporte reciben tickets con emails, teléfonos, números de cuenta y datos de facturación de clientes. Cuando usan IA para redactar respuestas o resumir conversaciones, SanitAI sanitiza el ticket antes de usarlo como contexto para el modelo.

⚖️

Equipos legales y de compliance

Los departamentos legales trabajan con contratos y expedientes que contienen datos personales de partes, testigos o clientes. Cuando usan IA para resumir o analizar documentos, SanitAI permite anonimizar el contenido antes de enviarlo al modelo, cumpliendo GDPR.

📊

Análisis de datos con archivos Excel

Los analistas frecuentemente exportan hojas de cálculo con datos de clientes para pedir a la IA que genere fórmulas o detecte anomalías. SanitAI procesa el archivo .xlsx celda a celda y devuelve una versión limpia descargable, manteniendo la estructura original intacta.

📝

Documentación técnica y README

Al pedir a una IA que mejore o traduzca documentación técnica, los ejemplos de código pueden incluir valores reales de configuración: IPs, tokens de prueba o credenciales de staging. SanitAI detecta y reemplaza esos valores antes del procesamiento externo.

🔒

Auditorías de seguridad y pentesting

Los profesionales de seguridad que usan IA como asistente en auditorías frecuentemente trabajan con outputs que contienen IPs, hashes y cadenas de configuración de sistemas objetivo. SanitAI ayuda a mantener la confidencialidad del scope de la auditoría.

Sobre SanitAI

SanitAI nació de una necesidad concreta: los desarrolladores, analistas y equipos de soporte usan cada vez más herramientas de IA generativa, pero el flujo habitual de copiar y pegar en esas herramientas crea un riesgo de exposición de datos que en muchos entornos corporativos es inaceptable.

El enfoque de SanitAI es radicalmente distinto al de otras soluciones de DLP (Data Loss Prevention): en lugar de una capa de red corporativa o un proxy que intercepta tráfico, SanitAI funciona completamente en el navegador del usuario. No hay servidor. No hay cuenta. No hay datos que sincronizar. La herramienta puede incluso funcionar sin conexión a internet una vez que la página ha sido cargada.

20+

tipos de datos sensibles detectados

0 KB

enviados a ningún servidor

100%

procesamiento local en navegador

GDPR

compatible por diseño

El motor combina expresiones regulares calibradas por tipo de dato con análisis contextual para credenciales tipo clave:valor, y análisis de entropía de Shannon para tokens sin prefijo reconocible. El resultado es una herramienta que detecta con precisión sin generar una cantidad inaceptable de falsos positivos que harían inútil el output sanitizado.

SanitAI está diseñada para ser el primer paso en cualquier flujo de trabajo que involucre IA generativa con datos reales: sanitiza primero, luego pega. Simple, rápido, sin fricción, sin riesgo.

Legal

📄 Política de Privacidad ▾

Última actualización: Enero 2025

1. Responsable del tratamiento

SanitAI es una herramienta de código abierto que opera íntegramente en el navegador del usuario. No existe entidad jurídica que actúe como responsable del tratamiento de datos personales, ya que la herramienta no recopila, almacena ni transfiere ningún dato.

2. Datos que recogemos

Esta herramienta no recoge ningún dato personal. Todo el procesamiento ocurre localmente en tu navegador mediante JavaScript. No utilizamos cookies de seguimiento, ni analytics, ni ningún tipo de telemetría.

3. Datos que introduces

El texto, archivos y cualquier información que introduzcas en la herramienta se procesan exclusivamente en la memoria RAM de tu navegador. En ningún momento se envían a servidores externos. Puedes verificarlo abriendo las DevTools de tu navegador (pestaña Network): no se realizan peticiones HTTP durante el análisis.

4. Almacenamiento local

La herramienta puede usar localStorage del navegador únicamente para recordar tus preferencias de configuración (modo básico/paranoico, reglas activas). Estos datos no contienen información personal y se almacenan solo en tu dispositivo.

5. Servicios de terceros

Google Fonts: Se cargan tipografías desde los servidores de Google. Esto puede implicar que Google conozca tu dirección IP al solicitar los recursos. Puedes desactivarlo bloqueando las peticiones a fonts.googleapis.com.
SheetJS y Mammoth.js: Librerías cargadas vía CDN para procesar archivos Excel y Word. El procesamiento ocurre localmente.

6. Tus derechos

Dado que no tratamos datos personales, no aplican los derechos ARCO. Si tienes dudas sobre el funcionamiento de la herramienta, puedes inspeccionarla directamente ya que el código fuente es público y está disponible en el archivo HTML.

📋 Términos de Servicio ▾

Última actualización: Enero 2025

1. Aceptación de los términos

Al utilizar SanitAI aceptas estos Términos de Servicio. Si no estás de acuerdo con algún punto, por favor deja de usar la herramienta.

2. Descripción del servicio

SanitAI es una herramienta gratuita que detecta y elimina datos sensibles de texto y archivos, procesando todo localmente en tu navegador. Se proporciona "tal cual" sin garantías de ningún tipo.

3. Limitación de responsabilidad

Esta herramienta se ofrece como ayuda, no como garantía de cumplimiento normativo. No nos hacemos responsables de:

Datos sensibles no detectados (falsos negativos) por límites del motor de reglas.
Datos correctos eliminados por error (falsos positivos).
Decisiones tomadas basándose únicamente en el resultado de esta herramienta.
Incumplimientos regulatorios como GDPR o PCI DSS derivados de su uso o no uso.

4. Uso adecuado

Esta herramienta está diseñada para uso legítimo de protección de privacidad. Queda prohibido su uso para eludir controles de seguridad legítimos, acceder a datos de terceros sin autorización, o cualquier actividad contraria a la legislación aplicable.

5. Modificaciones

Nos reservamos el derecho de modificar estos términos en cualquier momento. El uso continuado de la herramienta tras la publicación de cambios implica la aceptación de los nuevos términos.

6. Ley aplicable

Estos términos se rigen por la legislación española y de la Unión Europea. Cualquier disputa se someterá a los tribunales competentes de España.

🍪 Política de Cookies ▾

Última actualización: Enero 2025

¿Utilizamos cookies?

SanitAI no utiliza cookies de seguimiento, analíticas ni publicitarias. No rastreamos tu comportamiento ni compartimos información con terceros con fines publicitarios.

Almacenamiento local del navegador

Podemos utilizar localStorage del navegador (técnicamente distinto de las cookies) exclusivamente para guardar tus preferencias de uso de la herramienta, como el modo de detección seleccionado. Estos datos:

No contienen información personal.
Nunca se envían a ningún servidor.
Puedes eliminarlos en cualquier momento limpiando los datos del sitio en tu navegador.

Recursos externos

Al cargar la página, se realizan peticiones a servicios de CDN (Google Fonts, jsDelivr) para cargar tipografías y librerías. Estos servicios pueden registrar tu dirección IP según sus propias políticas de privacidad.

Tu control

Puedes usar esta herramienta descargando el archivo HTML y abriéndolo localmente en tu navegador, evitando cualquier petición externa. Así tendrás garantía total de privacidad.

Limpia tus prompts antes de enviarlos a la IA

¿Por qué sanitizar antes de usar IA?

Cómo funciona SanitAI

Normalización del texto (Shadow Pass)

Motor de reglas con expresiones regulares calibradas

Análisis de entropía de Shannon

Sustitución y Privacy Score

Soporte para archivos Excel y Word

Procesamiento 100% local, verificable

Por qué la privacidad importa al usar IA generativa

📋 El problema del copia-pega en logs y documentos

⚖️ GDPR y la transferencia de datos a proveedores de IA

🔑 El riesgo específico de las API keys

🏢 Buenas prácticas para equipos y empresas

Qué detecta SanitAI

Casos de uso reales

Desarrolladores: depuración con IA

Equipos de soporte técnico

Equipos legales y de compliance

Análisis de datos con archivos Excel

Documentación técnica y README

Auditorías de seguridad y pentesting

Sobre SanitAI

Preguntas frecuentes

Legal

1. Responsable del tratamiento

2. Datos que recogemos

3. Datos que introduces

4. Almacenamiento local

5. Servicios de terceros

6. Tus derechos

1. Aceptación de los términos

2. Descripción del servicio

3. Limitación de responsabilidad

4. Uso adecuado

5. Modificaciones

6. Ley aplicable

¿Utilizamos cookies?

Almacenamiento local del navegador

Recursos externos

Tu control