// Ameaça e defesa
MCP tool poisoning: como prevenir
O que é tool poisoning
Model Context Protocol (MCP) deixa um agente de IA descobrir e chamar ferramentas. Tool poisoning é quando a descrição de uma ferramenta — ou o dado que ela retorna — carrega instrução escondida que sequestra o comportamento do agente. O modelo lê aquilo como contexto confiável e age.
O risco não nasce porque a IA é mágica. Nasce porque permissão demais encontra contexto não confiável: uma ferramenta que deveria só ler passa a influenciar uma ação que muda banco, pagamento ou arquivo.
Onde ele entra no seu SaaS
Se você conecta o agente a servidores MCP de terceiros, a descrição das ferramentas vem de fora do seu controle. Se o agente lê conteúdo público (uma página, um ticket, um PDF), esse texto pode conter injeção que o modelo trata como ordem.
- Descrições de ferramenta de servidores MCP não confiáveis.
- Conteúdo recuperado (RAG, páginas, tickets) tratado como instrução.
- Memória persistente que grava injeção e a reaplica depois.
Como prevenir
A defesa é fronteira, não fé no modelo. Trate toda descrição e todo retorno de ferramenta como dado não confiável, e exija aprovação humana para qualquer ação destrutiva ou irreversível.
- Permissão mínima por ferramenta: quem chama, com quais argumentos, em qual ambiente.
- Allowlist de servidores MCP; nada de auto-descoberta cega em produção.
- Aprovação humana para ação que muda banco, deploy, pagamento ou arquivo.
- Separe canal de instrução do canal de dado; não deixe conteúdo recuperado virar comando.
- Log de tool call sem payload sensível, com rollback definido.
Quando chamar leitura humana
Se o agente toca cliente, cobrança, upload, admin ou produção, mapear a fronteira de cada ferramenta deixa de ser opcional. Uma leitura humana curta (Risk Review) responde: quem pode chamar o quê, com qual aprovação e qual log — antes de a automação virar rotina.
Perguntas frequentes
Prompt injection e tool poisoning são a mesma coisa?
São primos. Prompt injection é a técnica de esconder instrução em texto; tool poisoning é aplicá-la via descrição ou retorno de ferramenta MCP para sequestrar o agente. A defesa se sobrepõe: fronteira, permissão mínima e desconfiar de contexto externo.
Basta usar um modelo melhor para resolver?
Não. O problema é de arquitetura de permissão, não de qualidade do modelo. Mesmo um modelo forte executa uma ação ruim se tiver permissão ampla e contexto não confiável.
O OWASP tem material sobre isso?
Sim. O OWASP MCP Top 10 e a Agentic Security Initiative nomeiam tool poisoning, context spoofing e permissões amplas. Servem de mapa para priorizar a revisão.