Defensas de inyección rápida contra los ciberataques de LLM
Interesante investigación: “Hackear al hacker de IA: inyección rápida como defensa contra los ciberataques impulsados por LLM«:
Los modelos de lenguaje grande (LLM) se aprovechan cada vez más para automatizar los ciberataques, haciendo que los exploits sofisticados sean más accesibles y escalables. En respuesta, proponemos una nueva estrategia de defensa adaptada para contrarrestar los ciberataques llevados a cabo por LLM. Presentamos Mantis, un marco defensivo que explota la sensibilidad de los LLM a las entradas adversas para socavar operaciones maliciosas. Al detectar un ciberataque automatizado, Mantis incorpora información cuidadosamente elaborada en las respuestas del sistema, lo que hace que el LLM del atacante interrumpa sus propias operaciones (defensa pasiva) o incluso comprometa la máquina del atacante (defensa activa). Al implementar servicios de señuelo deliberadamente vulnerables para atraer al atacante y utilizar inyecciones dinámicas para el LLM del atacante, Mantis puede piratear al atacante de forma autónoma. En nuestros experimentos, Mantis logró consistentemente más del 95 % de efectividad contra ataques automatizados basados en LLM. Para fomentar la investigación y la colaboración, Mantis está disponible como una herramienta de código abierto: esta URL https.
Por supuesto, esta no es la solución. Pero este tipo de cosas podrían ser parte de una solución.
Publicado el 7 de noviembre de 2024 a las 11:13 • 0 comentarios
Foto lateral de Bruce Schneier por Joe MacInnis.