Como já vimos hoje, os sistemas de IA estão se tornando alvos cada vez mais populares para ataques.
Uma nova pesquisa da Snyk e da Lakera analisa os riscos para agentes de IA e LLMs de ataques de injeção imediata.
Os agentes oferecem uma maneira flexível e conveniente de conectar vários componentes de aplicativos, como armazenamentos de dados, funções e APIs externas a um LLM subjacente, a fim de criar um sistema que aproveite os modelos de aprendizado de máquina para resolver problemas rapidamente e agregar valor.
A injeção rápida é uma nova variante de um ataque de injeção, em que a entrada fornecida pelo usuário é refletida diretamente em um formato tal que o sistema de processamento não consegue distinguir entre o que foi fornecido pelo desenvolvedor e pelo usuário.
OK, agora entendemos os termos que podemos analisar por que esses ataques são um problema tão grande. Ataques de injeção de prompt bem-sucedidos geralmente são mantidos dentro do LLM, mas onde um agente está envolvido que permite que a IA execute código ou chame uma API externa, eles podem ter consequências mais severas.
Os LLMs são vulneráveis a esse tipo de ataque porque o risco não pode ser totalmente abordado no nível do modelo, mas precisa de soluções de defesa rápidas para serem incorporadas às arquiteturas dos agentes.
Os pesquisadores observam: “Os sistemas baseados em agentes precisam considerar vulnerabilidades tradicionais, bem como as novas vulnerabilidades que são introduzidas por LLMs. Os prompts do usuário e a saída do LLM devem ser tratados como dados não confiáveis, assim como qualquer entrada do usuário na segurança tradicional de aplicativos da web, e precisam ser validados, higienizados, escapados, etc., antes de serem usados em qualquer contexto em que um sistema agirá com base neles. As defesas de prompt são necessárias para identificar e prevenir ataques de injeção de prompt e outras vulnerabilidades específicas de IA, em qualquer entrada ou saída do LLM.”
Você pode ver mais detalhes sobre como esse tipo de ataque funciona no blog do Snyk.
Crédito da imagem: Lighthunter/depositphotos.com