Multimodal (Anexos)
A aba Multimodal controla como o agente lida com anexos enviados pelo usuário — imagens, arquivos e áudios. Você decide se cada tipo é aceito nativamente, pré-processado por outro modelo ou bloqueado com uma mensagem amigável.

Quando habilitar
Seção intitulada “Quando habilitar”Habilite anexos quando o agente precisar:
- ler prints, fotos de produtos, recibos ou diagramas (imagem);
- analisar PDFs, planilhas, contratos ou outros documentos (arquivo);
- transcrever mensagens de voz do WhatsApp ou similares (áudio).
Se o agente não precisa de nenhum desses, desligue — você evita custos e respostas confusas quando o usuário manda algo que o agente não usaria.
Modos disponíveis (imagem e arquivo)
Seção intitulada “Modos disponíveis (imagem e arquivo)”Cada card tem três opções em rádio:
- Aceitar nativamente: o anexo vai direto pro modelo do agente. Só funciona se o modelo escolhido em Modelo tiver suporte (a interface mostra um aviso “Modelo atual não suporta” quando não tem).
- Pré-processar com outro modelo: um modelo auxiliar lê o anexo e injeta a descrição no contexto como texto. Custa uma chamada extra, mas permite usar modelos baratos como principal e ainda ter visão / leitura de arquivos. Você escolhe qual modelo usar no select abaixo.
- Não aceitar: o anexo é rejeitado e o usuário recebe uma mensagem custom em português e inglês que você define.
A opção de pré-processamento é útil para economizar: você roda o agente principal em um modelo barato e usa um modelo com visão só para a descrição da imagem.
O card de áudio é mais simples: liga ou desliga. Quando ligado, áudios são transcritos automaticamente com Whisper (OpenAI) e o texto chega ao agente como se fosse mensagem digitada. Custa cerca de 13 créditos por minuto transcrito.
Quando desligado, você define a mensagem que o usuário recebe ao mandar um áudio.
Formatos aceitos
Seção intitulada “Formatos aceitos”- Imagem: PNG, JPG, WEBP, GIF.
- Arquivos: PDF (com OCR em modelos compatíveis), DOCX, XLSX, CSV, TXT e outros documentos comuns.
- Áudio: formatos suportados pelo Whisper (MP3, M4A, OGG, WAV, etc.).
Limites de tamanho seguem o que cada modelo aceita — em geral, até alguns megabytes por anexo.
Recomendações
Seção intitulada “Recomendações”- Se o modelo principal já suporta visão e arquivos, use Aceitar nativamente — é mais barato e mais rápido.
- Se você quer rodar o agente em um modelo de baixo custo mas ainda precisa ler imagens, use Pré-processar.
- Sempre escreva uma mensagem clara no modo desligado, explicando como o usuário pode reformular o pedido em texto.
Onde ajustar
Seção intitulada “Onde ajustar”Abra o agente em Agentes, clique em Multimodal na barra lateral, ajuste os três cards e clique em Salvar.