Pular para o conteúdo

ElevenLabs

ElevenLabs

ElevenLabs é uma plataforma de síntese de voz por inteligência artificial que gera vozes naturais em qualquer idioma com altíssima fidelidade. Com a integração no SquadOS, seus agentes podem converter texto em áudio, clonar vozes personalizadas, dublar vídeos e áudios, e até criar e gerenciar agentes de IA conversacional completos com suporte a chamadas telefônicas.

Esta ferramenta utiliza chave de API (API_KEY) para conectar.

Você vai precisar dos seguintes campos:

CampoObrigatórioDescrição
api_keySimChave de API da sua conta ElevenLabs, usada para autenticar todas as requisições à API.
  1. Acesse elevenlabs.io e faça login ou crie uma conta.
  2. Clique no seu avatar no canto inferior esquerdo e acesse Profile.
  3. Role até a seção API key e clique em Copy para copiar a chave.
  4. Use esse valor no campo api_key ao conectar no SquadOS.
  1. Acesse Ferramentas no menu lateral (/admin/tools).
  2. Abra a aba Disponíveis e procure por ElevenLabs.
  3. Clique no card para abrir o modal de detalhes e em Conectar.
  4. Você é levado para a página de conexão segura hospedada pela Composio, onde informa a chave de API obtida acima.
  5. Ao concluir, você volta para o SquadOS com a conta conectada e a ferramenta disponível para os agentes. (Detalhes do fluxo em Ferramentas da Organização.)

ELEVENLABS_TEXT_TO_SPEECH

Converte texto em áudio usando uma voz e modelo especificados do ElevenLabs, retornando um arquivo de áudio para download. A URL do áudio fica em data.file.s3url na resposta. Use ELEVENLABS_TEXT_TO_SPEECH_STREAM quando precisar de streaming em tempo real.

NomeTipoObrigatórioDescrição
textstringSimTexto de entrada para conversão em voz. Máximo de 10.000 caracteres para a maioria dos modelos. Modelos Flash/Turbo v2: até 30.000. Flash/Turbo v2.5: até 40.000.
voice_idstringSimIdentificador da voz a ser utilizada. Obtenha os IDs disponíveis pelo endpoint /v1/voices.
model_idstringNãoIdentificador do modelo de síntese. Liste os modelos disponíveis via /v1/models e certifique-se de que can_do_text_to_speech é true.
output_formatstringNãoFormato de saída do áudio (ex.: mp3_44100_128, pcm_24000, ulaw_8000). Alguns formatos exigem plano específico.
seedintegerNãoSemente inteira para geração determinística de áudio. A repetibilidade é uma meta, mas não é garantida.
voice_settingsobjectNãoConfigurações de voz para controlar as características da síntese.
optimize_streaming_latencyintegerNãoControla otimizações de latência (0–4). Valores maiores reduzem latência, possivelmente afetando a qualidade.
pronunciation_dictionary_locatorsarrayNãoLista de até 3 dicionários de pronúncia a aplicar sequencialmente.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_TEXT_TO_SPEECH_STREAM

Converte texto em fluxo de áudio em tempo real, sem gerar arquivo salvo nem entrada no histórico. Ideal para respostas em tempo real. Use o parâmetro optimize_streaming_latency para ajustar latência versus qualidade.

NomeTipoObrigatórioDescrição
textstringSimTexto a ser convertido em voz. Recomendado manter abaixo de 5.000 caracteres.
voice_idstringSimIdentificador da voz a utilizar. Obtenha os IDs via GET /v1/voices.
model_idstringNãoIdentificador do modelo. Confirme que o modelo suporta texto para voz via can_do_text_to_speech.
output_formatstringNãoFormato de áudio de saída (ex.: mp3_44100_128, pcm_24000). Alguns formatos exigem plano Creator ou Pro.
seedintegerNãoSemente para geração determinística.
optimize_streaming_latencyintegerNãoOtimização de latência (0–4). Valor 4 desativa o normalizador de texto para menor latência.
pronunciation_dictionary_locatorsarrayNãoLista de até 3 localizadores de dicionários de pronúncia.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_SPEECH_TO_SPEECH

Converte um arquivo de áudio de entrada para fala usando uma voz especificada. O modelo fornecido, se especificado, deve suportar conversão de voz para voz.

NomeTipoObrigatórioDescrição
audioobjectSimArquivo de áudio a ser convertido.
voice_idstringSimIdentificador da voz de destino.
model_idstringNãoIdentificador do modelo (deve ter can_do_voice_conversion igual a true).
output_formatstringNãoFormato de saída do áudio.
seedintegerNãoSemente para geração determinística (0–4294967295).
voice_settingsstringNãoString JSON com configurações de voz como stability e similarity_boost.
optimize_streaming_latencyintegerNãoOtimização de latência (0–4).
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_SPEECH_TO_SPEECH_STREAMING

Converte um fluxo de áudio de entrada para outro fluxo de áudio em tempo real, usando um modelo de conversão de voz para voz especificado.

NomeTipoObrigatórioDescrição
audioobjectSimArquivo de áudio de entrada (ex.: .wav, .mp3) a ser convertido.
voice_idstringSimIdentificador da voz a utilizar.
model_idstringNãoIdentificador do modelo de conversão (ex.: eleven_english_sts_v2).
output_formatstringNãoFormato de saída do fluxo de áudio.
seedintegerNãoSemente para geração determinística (0–4294967295).
optimize_streaming_latencyintegerNãoOtimização de latência (0–4).
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_ADD_VOICE

Adiciona uma voz personalizada enviando amostras de áudio para clonagem de voz. Recomenda-se 1–2 minutos de áudio claro sem ruído de fundo. Formatos suportados: mp3, wav, ogg.

NomeTipoObrigatórioDescrição
namestringSimNome da nova voz, usado como identificador na plataforma.
filesarraySimLista de arquivos de áudio para clonagem. Pelo menos um arquivo é necessário.
descriptionstringNãoDescrição opcional detalhando as características ou casos de uso da voz.
labelsstringNãoObjeto JSON stringificado com pares chave-valor para categorização (ex.: {"accent": "American"}).
remove_background_noisebooleanNãoSe true, remove ruído de fundo das amostras. Use apenas se houver ruído; em áudio limpo pode reduzir a qualidade.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_EDIT_VOICE

Atualiza o nome, arquivos de áudio, descrição ou etiquetas de uma voz existente. Apenas vozes próprias (clonadas) podem ser editadas; vozes prontas/padrão não são editáveis. O campo name é obrigatório em todas as operações de edição.

NomeTipoObrigatórioDescrição
namestringSimNome do modelo de voz.
voice_idstringSimIdentificador da voz a ser editada. Apenas vozes de sua propriedade podem ser editadas.
filesarrayNãoLista opcional de arquivos de áudio a adicionar ao modelo. Formatos: mp3, wav, ogg.
descriptionstringNãoNova descrição para o modelo de voz.
labelsstringNãoString JSON de pares chave-valor para categorização; novos labels substituem os existentes.
remove_background_noisebooleanNãoSe true, remove ruído de fundo das amostras.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_EDIT_VOICE_SETTINGS

Edita configurações-chave de uma voz existente (estabilidade, similaridade, estilo, speaker boost), afetando todos os áudios futuros gerados com esse voice_id.

NomeTipoObrigatórioDescrição
voice_idstringSimIdentificador da voz cujas configurações serão modificadas.
stabilitynumberNãoControla consistência e aleatoriedade entre gerações (0.0–1.0). Valores menores introduzem mais expressividade; maiores resultam em voz mais monótona.
similarity_boostnumberNãoDetermina o quanto a IA deve aderir à voz original (0.0–1.0).
stylenumberNãoAjusta a exageração de estilo e expressividade (0.0–1.0). Disponível para modelos V2+.
speednumberNãoControla o ritmo e velocidade da fala (tipicamente 0.25–4.0).
use_speaker_boostbooleanNãoAumenta a similaridade com o falante original. Não disponível para o modelo Eleven v3.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_DELETE_VOICE

Exclui permanente e irreversivelmente uma voz personalizada específica usando seu voice_id. O usuário autenticado deve ter permissão para excluir a voz.

NomeTipoObrigatórioDescrição
voice_idstringSimIdentificador único da voz a ser excluída.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_VOICES

Recupera a lista de todas as vozes disponíveis junto com seus atributos e configurações detalhadas.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_VOICE

Recupera detalhes completos de uma voz específica pelo seu voice_id, opcionalmente incluindo as configurações da voz.

NomeTipoObrigatórioDescrição
voice_idstringSimIdentificador da voz. Use GET /v1/voices para listar os IDs disponíveis.
with_settingsbooleanNãoSe true, a resposta incluirá informações detalhadas de configuração da voz.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_SHARED_VOICES

Recupera uma lista paginada e filtrável de vozes compartilhadas da Biblioteca de Vozes do ElevenLabs.

NomeTipoObrigatórioDescrição
searchstringNãoTermo de busca para filtrar vozes por nome ou descrição.
languagestringNãoFiltra vozes por idioma (código ISO 639-1).
genderstringNãoFiltra vozes por gênero.
accentstringNãoFiltra vozes por sotaque.
agestringNãoFiltra vozes por faixa etária.
categorystringNãoFiltra vozes por categoria.
featuredbooleanNãoFiltra vozes marcadas como destaque.
use_casesarrayNãoFiltra vozes por casos de uso pretendidos.
pageintegerNãoNúmero da página para paginação, começando em 0.
page_sizeintegerNãoNúmero máximo de vozes por página (máx. 100).
sortstringNãoOpções de ordenação: created_date, usage_character_count_1y, trending, cloned_by_count.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GENERATE_A_RANDOM_VOICE

Gera uma voz de texto para voz única e aleatória do ElevenLabs com base em texto de entrada e características de voz especificadas.

NomeTipoObrigatórioDescrição
textstringSimTexto a ser sintetizado. O comprimento deve estar entre 100 e 1.000 caracteres.
genderstringSimGênero da voz gerada: female ou male.
agestringSimCategoria de idade da voz: young, middle_aged ou old.
accentstringSimSotaque da voz gerada: american, british, african, australian ou indian.
accent_strengthnumberSimIntensidade do sotaque (0.3–2.0).
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_DUB_A_VIDEO_OR_AN_AUDIO_FILE

Dublagem de um vídeo ou arquivo de áudio para um idioma de destino especificado. Requer file ou source_url e target_lang. Se o modo for manual, também é necessário csv_file.

NomeTipoObrigatórioDescrição
target_langstringSimCódigo do idioma de destino para dublagem (ex.: en, es, pt).
fileobjectNãoArquivo de vídeo ou áudio a dublar. Obrigatório se source_url não for fornecido.
source_urlstringNãoURL do arquivo de vídeo ou áudio. Obrigatório se file não for fornecido.
source_langstringNãoIdioma do áudio original. Use auto para detecção automática ou forneça um código de idioma (ex.: en).
namestringNãoNome para o projeto de dublagem.
modestringNãoModo de dublagem: automatic (IA) ou manual (via arquivo CSV com transcrições temporizadas).
num_speakersintegerNãoNúmero de falantes no áudio. Use 0 para detecção automática.
watermarkbooleanNãoIncluir marca d’água no áudio dublado.
highest_resolutionbooleanNãoProcessar em maior resolução possível; pode aumentar o tempo de processamento.
dubbing_studiobooleanNãoHabilitar recursos do Dubbing Studio para edição avançada.
start_timeintegerNãoTempo de início em segundos para a parte do áudio a dublar.
end_timeintegerNãoTempo de fim em segundos para a parte do áudio a dublar.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_GENERATED_ITEMS

Recupera metadados de uma lista de itens de áudio gerados do histórico, com suporte a paginação e filtragem opcional por ID de voz.

NomeTipoObrigatórioDescrição
voice_idstringNãoFiltra os itens do histórico para incluir apenas os gerados com a voz especificada.
page_sizeintegerNãoNúmero máximo de itens por página (1–1000).
start_after_history_item_idstringNãoID do item a partir do qual buscar os resultados (paginação).
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_DOWNLOAD_HISTORY_ITEMS

Baixa clipes de áudio do histórico por ID(s), retornando um único arquivo ou um arquivo ZIP, com opção de formato de saída (ex.: wav).

NomeTipoObrigatórioDescrição
history_item_idsarraySimLista de identificadores únicos dos itens do histórico a baixar.
output_formatstringNãoFormato de saída opcional. Aceita wav para converter o áudio. Se omitido, retorna no formato original sintetizado.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_MODELS

Recupera uma lista detalhada de todos os modelos de texto para voz disponíveis do ElevenLabs e suas capacidades.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_CREATE_CONVERSATIONAL_AGENT

Cria um novo agente de IA conversacional do ElevenLabs com configuração especificada. Após a criação, outros tools podem ser encadeados para vincular números de telefone ou configurar ajustes adicionais.

NomeTipoObrigatórioDescrição
conversation_configobjectSimObjeto de configuração que define o comportamento conversacional do agente, incluindo prompt, modelo LLM, idioma e primeira mensagem.
namestringNãoNome legível para o agente.
tagsarrayNãoLista de etiquetas para organizar e categorizar o agente.
workflowobjectNãoConfiguração de fluxo de trabalho com lógica condicional e modos de execução de tools.
platform_settingsstringNãoConfigurações específicas da plataforma, incluindo critérios de avaliação e configuração do widget.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_UPDATE_CONVAI_AGENT

Atualiza as configurações de um agente de IA conversacional existente, como nome, configurações de conversa, fluxo de trabalho ou configurações de plataforma.

NomeTipoObrigatórioDescrição
agent_idstringSimID do agente a ser atualizado.
namestringNãoNome do agente.
tagsarrayNãoEtiquetas para classificar e filtrar o agente.
conversation_configobjectNãoConfiguração de conversa do agente.
workflowobjectNãoConfiguração de fluxo de trabalho.
platform_settingsobjectNãoConfigurações de plataforma do agente.
version_descriptionstringNãoDescrição da versão ao publicar alterações (aplicável apenas para agentes com versão).
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_SIMULATE_CONVAI_AGENTS_SIMULATE_CONVERSATION

Executa uma conversa simulada entre um agente e um usuário de IA. Retorna transcrição completa com análise, incluindo métricas de sucesso e resumo da conversa.

NomeTipoObrigatórioDescrição
agent_idstringSimID do agente a simular.
simulation_specificationobjectSimEspecificação que define a simulação de conversa entre o agente e o usuário de IA.
new_turns_limitintegerNãoNúmero máximo de novos turnos a gerar na simulação.
extra_evaluation_criteriaarrayNãoLista de critérios de avaliação adicionais.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_OUTBOUND_CALL

Realiza uma chamada de saída via tronco SIP. Requer API key com permissões de Conversational AI e um número de telefone SIP configurado para chamadas de saída.

NomeTipoObrigatórioDescrição
agent_idstringSimID do agente para realizar a chamada.
to_numberstringSimNúmero de telefone de destino no formato E.164.
agent_phone_number_idstringSimID do número de telefone de origem (deve suportar chamadas de saída).
conversation_initiation_client_dataobjectNãoPayload de personalização para iniciar a conversa.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_REGISTER_CALL_CONVAI_TWILIO

Registra uma chamada Twilio e retorna TwiML para conectar a chamada a um agente de IA conversacional do ElevenLabs. Use ao integrar agentes do ElevenLabs com sua própria infraestrutura Twilio.

NomeTipoObrigatórioDescrição
agent_idstringSimIdentificador único do agente de IA conversacional a utilizar.
to_numberstringSimNúmero de telefone de destino no formato E.164.
from_numberstringSimNúmero de telefone de origem no formato E.164.
directionstringNãoDireção da chamada: inbound para chamadas recebidas ou outbound para chamadas de saída.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_USER_INFO

Recupera informações detalhadas sobre a conta do usuário autenticado no ElevenLabs, incluindo assinatura, uso, chave de API e status.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_USER_SUBSCRIPTION_INFO

Recupera informações detalhadas de assinatura do usuário autenticado no ElevenLabs.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_GET_VOICE_SETTINGS

Recupera as configurações de estabilidade, similaridade, estilo e speaker boost de uma voz específica existente no ElevenLabs.

NomeTipoObrigatórioDescrição
voice_idstringSimIdentificador da voz cujas configurações serão recuperadas.
NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.

ELEVENLABS_CREATE_MUSIC_PLAN

Gera um plano de composição musical a partir de um prompt de texto usando a API de Música do ElevenLabs. Cria um plano estruturado com estilos, seções e durações definidas, que pode ser usado como entrada para geração de música ou como modelo para variações.

NomeTipoObrigatórioDescrição
datastringSimDados retornados pela execução da ação.
errorstringNãoMensagem de erro caso a execução tenha falhado.
successfulbooleanSimIndica se a ação foi executada com sucesso.