Pular para o conteúdo

Áudio e Transcrição

Você pode falar com o agente em vez de digitar. O SquadOS grava o áudio no próprio navegador, envia para transcrição automática e insere o texto resultante no campo de mensagem. Você ainda revisa antes de enviar.

Dentro do chat (Hub, link público, widget ou painel admin durante intervenção), o botão de microfone aparece na barra de ações do compositor, ao lado do botão de anexo.

Compositor do chat com botão de microfone

  1. Clique no ícone de microfone.
  2. Autorize o navegador a usar o microfone na primeira vez. A permissão fica salva para os próximos usos.
  3. Fale sua mensagem. O compositor mostra um visualizador animado e o tempo de gravação.
  4. Clique no botão de enviar (ícone de avião) para finalizar e transcrever.
  5. Para descartar sem enviar, clique no X ao lado do visualizador.

A gravação precisa ter no mínimo 1 segundo e dura no máximo 2 minutos (120 segundos). Se passar do limite, o SquadOS finaliza automaticamente.

Assim que você confirma o envio:

  1. O áudio sai do navegador codificado em webm/opus mono a 16 kHz.
  2. Vai para a edge function de transcrição do SquadOS.
  3. A função chama o modelo Whisper da OpenAI, otimizado para português.
  4. O texto retorna e é inserido automaticamente no campo de mensagem, somado ao que você já tinha digitado (se houver).
  5. Você revisa o texto, ajusta se precisar, e envia normalmente.

O áudio não é armazenado depois da transcrição — apenas o texto fica no histórico da conversa.

A transcrição é configurada para português por padrão no SquadOS. O Whisper ainda consegue interpretar palavras em outros idiomas misturadas na fala, mas o resultado fica melhor quando você fala em português claro.

A gravação no navegador usa o melhor formato suportado pelo dispositivo, na ordem: webm/opus, webm, ogg/opus, mp4, mpeg. Você não precisa escolher nada — o SquadOS detecta sozinho.

Quando o áudio vem de outras integrações (por exemplo, WhatsApp), o backend reconhece também mp3, wav, ogg, m4a, aac e flac.

  • Duração mínima: 1 segundo (aviso se gravar menos).
  • Duração máxima: 120 segundos por gravação.
  • Microfone: a gravação depende do microfone do dispositivo. Fones com microfone ou microfones externos costumam dar resultado melhor que o microfone embutido do notebook.
  • Ambiente: ambientes barulhentos pioram a transcrição. O Whisper tem cancelamento de ruído razoável, mas nada substitui um lugar quieto.
  • Silêncio: se você gravar só silêncio, a transcrição volta vazia e o texto não é adicionado — sem erro.

O botão some quando:

  • O agente desativou áudio: na configuração do agente, em Anexos -> Áudio, o admin pode desligar o recurso. Nesse caso, o agente responde com uma mensagem padrão (configurável) avisando que só processa texto.
  • O navegador bloqueou o microfone: revogue o bloqueio em Configurações do site -> Microfone no seu navegador e atualize a página.
  • O dispositivo não tem microfone: o navegador retorna “Nenhum microfone encontrado”. Conecte um dispositivo de entrada e tente de novo.
  • Permissão negada: se você recusou o acesso, abra as permissões do site e altere para Permitir.
  • “Permissão de microfone negada”: você não autorizou o navegador. Libere a permissão e tente de novo.
  • “Erro ao transcrever áudio”: falha temporária do serviço de transcrição. Tente de novo em alguns segundos.
  • Texto truncado ou estranho: gravação com muito ruído, fala muito rápida ou microfone de baixa qualidade. Refaça em ambiente mais silencioso.