Arrastra un archivo aquí
o haz clic para seleccionarlo
.txt .csv .json .xlsx .docx .py .js .env…
SanitAI
Términos de uso · Terms of Use
Al usar esta herramienta, aceptas las siguientes condiciones:
By using this tool, you agree to the following terms:
Detecta emails, contraseñas, IBANs, API keys y 20+ tipos de datos sensibles. Procesado 100% local, sin servidores.
Arrastra un archivo aquí
o haz clic para seleccionarlo
.txt .csv .json .xlsx .docx .py .js .env…
Cada prompt enviado a ChatGPT, Claude o Gemini puede contener información que no quieres compartir con servidores externos.
How SanitAI Works
SanitAI aplica un motor de detección de múltiples capas sobre tu texto antes de que salga de tu dispositivo. Ningún carácter llega a ningún servidor externo.
Antes de aplicar cualquier regla, el motor crea una copia interna normalizada del texto que convierte variantes de ofuscación como [at] o (dot) en sus formas estándar. También normaliza caracteres Unicode equivalentes y elimina zero-width characters invisibles que podrían ocultar datos. Esto garantiza que un email escrito como usuario arroba empresa punto com sea detectado con la misma precisión que una dirección convencional.
Cada tipo de dato sensible tiene su propia expresión regular diseñada para minimizar falsos positivos. La detección de IBANs valida que el total de dígitos sea exactamente 22 mediante un filtro posterior. Las API keys de AWS se detectan por su prefijo AKIA más la longitud esperada. Las credenciales contextuales como password=valor se detectan por estructura real, no por palabras aisladas, eliminando los falsos positivos que afectan a soluciones simples.
En modo Paranoico, el motor calcula la entropía de Shannon de cada token alfanumérico largo. Cualquier cadena de más de 20 caracteres con entropía superior a 3.8 bits/carácter se considera un posible secreto aunque no tenga prefijo reconocible. Esta heurística detecta tokens de CI/CD, Bearer tokens, contraseñas generadas automáticamente y secrets de servicios cloud sin nombre estándar: exactamente los datos que las regex convencionales dejan pasar.
Cada detección reemplaza el valor original por un token descriptivo como [EMAIL] o [CREDENTIAL]. Paralelamente, el sistema calcula un Privacy Score ponderando el tipo de dato: los datos financieros y credenciales suman 5 puntos, los datos personales 2, y los de infraestructura 1. El resultado es un indicador de riesgo inmediato: verde (seguro, 80-100), amarillo (revisar, 50-79) o rojo (riesgo alto, menos de 50).
Los archivos .xlsx se procesan celda a celda usando SheetJS. Los documentos .docx se convierten a texto plano con Mammoth.js. En ambos casos el texto extraído pasa por exactamente el mismo motor de sanitización que el texto pegado manualmente. El resultado descargable mantiene el sufijo _sanitizado y el MIME type correcto para cada formato original.
Todo ocurre dentro del proceso del navegador. Puedes verificarlo abriendo las DevTools (pestaña Network): durante el análisis no se produce ninguna petición HTTP. No hay servidor, no hay base de datos, no hay cuenta de usuario, no hay telemetría. El archivo HTML es autocontenido y puede usarse sin conexión una vez descargado.
Privacy in AI
Los modelos de lenguaje como ChatGPT, Claude o Gemini son herramientas extraordinariamente útiles. Pero cada prompt que envías es texto que procesa un servidor externo, con implicaciones legales y de seguridad que muchas organizaciones todavía subestiman.
Uno de los vectores más comunes de exposición accidental ocurre cuando un desarrollador o técnico de soporte pega directamente un log de sistema, un stack trace o un archivo de configuración en un chat de IA para pedir ayuda. Esos archivos suelen contener cadenas de conexión con credenciales, tokens de autenticación, direcciones IP internas, nombres de usuario y rutas de ficheros. En una fracción de segundo, datos que deberían ser confidenciales han viajado a servidores de un proveedor externo.
El Reglamento General de Protección de Datos (GDPR) exige que cualquier transferencia de datos personales a un tercero esté respaldada por un contrato de tratamiento de datos (DPA). Los proveedores de IA ofrecen sus propios DPAs, pero en muchas organizaciones el uso de estas herramientas ocurre antes de que los departamentos legales hayan evaluado esos contratos. Pegar el nombre, email o número de teléfono de un cliente en un prompt puede ser, técnicamente, una transferencia de datos personales que incumple el GDPR y puede conllevar multas de hasta el 4% del volumen de negocio global.
Las claves de acceso a servicios cloud son activos de seguridad críticos. Una API key de AWS con permisos amplios puede dar acceso completo a recursos cloud, generar costes ilimitados o exponer datos de producción. Sin embargo, es habitual encontrarlas en archivos de configuración que se comparten con IA para pedir ayuda sin pensar. SanitAI detecta más de seis formatos distintos de API keys, incluyendo OpenAI, AWS, GCP, GitHub, y tokens JWT de sesión activa.
La solución más efectiva no es prohibir el uso de IA en la empresa, sino establecer hábitos de higiene de datos: (1) sanitizar cualquier contenido antes de pegarlo en una IA, (2) usar cuentas corporativas con DPA firmado cuando se trabaja con datos de clientes, (3) no pegar credenciales activas en ningún chat aunque sea para pedir ayuda técnica, y (4) revisar el output de la IA antes de incorporarlo a sistemas de producción. SanitAI está diseñada para ser ese primer paso de higiene, rápido y sin fricción.
Detection Coverage
El motor cubre más de 20 categorías de datos sensibles, con reglas específicas calibradas para minimizar falsos positivos.
Use Cases
SanitAI es útil en cualquier contexto donde texto con datos sensibles deba pasar por una herramienta de IA externa o ser compartido con terceros.
Cuando un desarrollador pega un stack trace, archivo de configuración o log de error en ChatGPT, ese contenido puede incluir cadenas de conexión a bases de datos, tokens de sesión, rutas con nombres de usuario o IPs de servidores de producción. SanitAI elimina esos datos en segundos antes de pegar el contenido en el chat.
Los agentes de soporte reciben tickets con emails, teléfonos, números de cuenta y datos de facturación de clientes. Cuando usan IA para redactar respuestas o resumir conversaciones, SanitAI sanitiza el ticket antes de usarlo como contexto para el modelo.
Los departamentos legales trabajan con contratos y expedientes que contienen datos personales de partes, testigos o clientes. Cuando usan IA para resumir o analizar documentos, SanitAI permite anonimizar el contenido antes de enviarlo al modelo, cumpliendo GDPR.
Los analistas frecuentemente exportan hojas de cálculo con datos de clientes para pedir a la IA que genere fórmulas o detecte anomalías. SanitAI procesa el archivo .xlsx celda a celda y devuelve una versión limpia descargable, manteniendo la estructura original intacta.
Al pedir a una IA que mejore o traduzca documentación técnica, los ejemplos de código pueden incluir valores reales de configuración: IPs, tokens de prueba o credenciales de staging. SanitAI detecta y reemplaza esos valores antes del procesamiento externo.
Los profesionales de seguridad que usan IA como asistente en auditorías frecuentemente trabajan con outputs que contienen IPs, hashes y cadenas de configuración de sistemas objetivo. SanitAI ayuda a mantener la confidencialidad del scope de la auditoría.
About SanitAI
SanitAI nació de una necesidad concreta: los desarrolladores, analistas y equipos de soporte usan cada vez más herramientas de IA generativa, pero el flujo habitual de copiar y pegar en esas herramientas crea un riesgo de exposición de datos que en muchos entornos corporativos es inaceptable.
El enfoque de SanitAI es radicalmente distinto al de otras soluciones de DLP (Data Loss Prevention): en lugar de una capa de red corporativa o un proxy que intercepta tráfico, SanitAI funciona completamente en el navegador del usuario. No hay servidor. No hay cuenta. No hay datos que sincronizar. La herramienta puede incluso funcionar sin conexión a internet una vez que la página ha sido cargada.
El motor combina expresiones regulares calibradas por tipo de dato con análisis contextual para credenciales tipo clave:valor, y análisis de entropía de Shannon para tokens sin prefijo reconocible. El resultado es una herramienta que detecta con precisión sin generar una cantidad inaceptable de falsos positivos que harían inútil el output sanitizado.
SanitAI está diseñada para ser el primer paso en cualquier flujo de trabajo que involucre IA generativa con datos reales: sanitiza primero, luego pega. Simple, rápido, sin fricción, sin riesgo.
Última actualización: Enero 2025
SanitAI es una herramienta de código abierto que opera íntegramente en el navegador del usuario. No existe entidad jurídica que actúe como responsable del tratamiento de datos personales, ya que la herramienta no recopila, almacena ni transfiere ningún dato.
Esta herramienta no recoge ningún dato personal. Todo el procesamiento ocurre localmente en tu navegador mediante JavaScript. No utilizamos cookies de seguimiento, ni analytics, ni ningún tipo de telemetría.
El texto, archivos y cualquier información que introduzcas en la herramienta se procesan exclusivamente en la memoria RAM de tu navegador. En ningún momento se envían a servidores externos. Puedes verificarlo abriendo las DevTools de tu navegador (pestaña Network): no se realizan peticiones HTTP durante el análisis.
La herramienta puede usar localStorage del navegador únicamente para recordar tus preferencias de configuración (modo básico/paranoico, reglas activas). Estos datos no contienen información personal y se almacenan solo en tu dispositivo.
Dado que no tratamos datos personales, no aplican los derechos ARCO. Si tienes dudas sobre el funcionamiento de la herramienta, puedes inspeccionarla directamente ya que el código fuente es público y está disponible en el archivo HTML.
Última actualización: Enero 2025
Al utilizar SanitAI aceptas estos Términos de Servicio. Si no estás de acuerdo con algún punto, por favor deja de usar la herramienta.
SanitAI es una herramienta gratuita que detecta y elimina datos sensibles de texto y archivos, procesando todo localmente en tu navegador. Se proporciona "tal cual" sin garantías de ningún tipo.
Esta herramienta se ofrece como ayuda, no como garantía de cumplimiento normativo. No nos hacemos responsables de:
Esta herramienta está diseñada para uso legítimo de protección de privacidad. Queda prohibido su uso para eludir controles de seguridad legítimos, acceder a datos de terceros sin autorización, o cualquier actividad contraria a la legislación aplicable.
Nos reservamos el derecho de modificar estos términos en cualquier momento. El uso continuado de la herramienta tras la publicación de cambios implica la aceptación de los nuevos términos.
Estos términos se rigen por la legislación española y de la Unión Europea. Cualquier disputa se someterá a los tribunales competentes de España.
Última actualización: Enero 2025
SanitAI no utiliza cookies de seguimiento, analíticas ni publicitarias. No rastreamos tu comportamiento ni compartimos información con terceros con fines publicitarios.
Podemos utilizar localStorage del navegador (técnicamente distinto de las cookies) exclusivamente para guardar tus preferencias de uso de la herramienta, como el modo de detección seleccionado. Estos datos:
Al cargar la página, se realizan peticiones a servicios de CDN (Google Fonts, jsDelivr) para cargar tipografías y librerías. Estos servicios pueden registrar tu dirección IP según sus propias políticas de privacidad.
Puedes usar esta herramienta descargando el archivo HTML y abriéndolo localmente en tu navegador, evitando cualquier petición externa. Así tendrás garantía total de privacidad.