Áudio e Transcrição

Você pode falar com o agente em vez de digitar. O SquadOS grava o áudio no próprio navegador, envia para transcrição automática e insere o texto resultante no campo de mensagem. Você ainda revisa antes de enviar.

Gravando áudio

Dentro do chat (Hub, link público, widget ou painel admin durante intervenção), o botão de microfone aparece na barra de ações do compositor, ao lado do botão de anexo.

Compositor do chat com botão de microfone

Clique no ícone de microfone.
Autorize o navegador a usar o microfone na primeira vez. A permissão fica salva para os próximos usos.
Fale sua mensagem. O compositor mostra um visualizador animado e o tempo de gravação.
Clique no botão de enviar (ícone de avião) para finalizar e transcrever.
Para descartar sem enviar, clique no X ao lado do visualizador.

A gravação precisa ter no mínimo 1 segundo e dura no máximo 2 minutos (120 segundos). Se passar do limite, o SquadOS finaliza automaticamente.

O que acontece com o áudio

Assim que você confirma o envio:

O áudio sai do navegador codificado em webm/opus mono a 16 kHz.
Vai para a edge function de transcrição do SquadOS.
A função chama o modelo Whisper da OpenAI, otimizado para português.
O texto retorna e é inserido automaticamente no campo de mensagem, somado ao que você já tinha digitado (se houver).
Você revisa o texto, ajusta se precisar, e envia normalmente.

O áudio não é armazenado depois da transcrição — apenas o texto fica no histórico da conversa.

Idioma

A transcrição é configurada para português por padrão no SquadOS. O Whisper ainda consegue interpretar palavras em outros idiomas misturadas na fala, mas o resultado fica melhor quando você fala em português claro.

Formatos aceitos

A gravação no navegador usa o melhor formato suportado pelo dispositivo, na ordem: webm/opus, webm, ogg/opus, mp4, mpeg. Você não precisa escolher nada — o SquadOS detecta sozinho.

Quando o áudio vem de outras integrações (por exemplo, WhatsApp), o backend reconhece também mp3, wav, ogg, m4a, aac e flac.

Limites e qualidade

Duração mínima: 1 segundo (aviso se gravar menos).
Duração máxima: 120 segundos por gravação.
Microfone: a gravação depende do microfone do dispositivo. Fones com microfone ou microfones externos costumam dar resultado melhor que o microfone embutido do notebook.
Ambiente: ambientes barulhentos pioram a transcrição. O Whisper tem cancelamento de ruído razoável, mas nada substitui um lugar quieto.
Silêncio: se você gravar só silêncio, a transcrição volta vazia e o texto não é adicionado — sem erro.

Quando o microfone não aparece

O botão some quando:

O agente desativou áudio: na configuração do agente, em Anexos -> Áudio, o admin pode desligar o recurso. Nesse caso, o agente responde com uma mensagem padrão (configurável) avisando que só processa texto.
O navegador bloqueou o microfone: revogue o bloqueio em Configurações do site -> Microfone no seu navegador e atualize a página.
O dispositivo não tem microfone: o navegador retorna “Nenhum microfone encontrado”. Conecte um dispositivo de entrada e tente de novo.
Permissão negada: se você recusou o acesso, abra as permissões do site e altere para Permitir.

Erros comuns

“Permissão de microfone negada”: você não autorizou o navegador. Libere a permissão e tente de novo.
“Erro ao transcrever áudio”: falha temporária do serviço de transcrição. Tente de novo em alguns segundos.
Texto truncado ou estranho: gravação com muito ruído, fala muito rápida ou microfone de baixa qualidade. Refaça em ambiente mais silencioso.