Firecrawl
Visão geral
Seção intitulada “Visão geral”O Firecrawl automatiza o rastreamento web e a extração de dados, permitindo que organizações coletem conteúdo, indexem sites e obtenham insights de fontes online em escala. Com a integração no SquadOS, seus agentes podem raspar páginas, iniciar crawls completos, extrair dados estruturados via LLM e realizar pesquisas profundas autônomas em múltiplas fontes da web.
- Site oficial: https://firecrawl.dev/
- Documentação na Composio: docs.composio.dev/toolkits/firecrawl
Autenticação
Seção intitulada “Autenticação”Esta ferramenta utiliza chave de API (API_KEY) para conectar.
Você vai precisar dos seguintes campos:
| Campo | Obrigatório | Descrição |
|---|---|---|
api_key | Sim | Chave de API da sua conta Firecrawl, usada para autenticar todas as requisições. |
Como obter a credencial
Seção intitulada “Como obter a credencial”- Acesse firecrawl.dev e crie uma conta ou faça login.
- No painel, navegue até a seção API Keys (ou Settings → API Keys).
- Clique em Create new key, dê um nome descritivo e copie o valor gerado.
Como conectar no SquadOS
Seção intitulada “Como conectar no SquadOS”- Acesse Ferramentas no menu lateral (
/admin/tools). - Abra a aba Disponíveis e procure por
Firecrawl. - Clique no card para abrir o modal de detalhes e em Conectar.
- Você é levado para a página de conexão segura hospedada pela Composio, onde informa a chave de API obtida acima.
- Ao concluir, você volta para o SquadOS com a conta conectada e a ferramenta disponível para os agentes. (Detalhes do fluxo em Ferramentas da Organização.)
Ações disponíveis
Seção intitulada “Ações disponíveis”Cancelar job de agente
Seção intitulada “Cancelar job de agente”FIRECRAWL_AGENT_CANCEL
Cancela um job de agente em andamento pelo seu ID. Use quando precisar encerrar uma operação de agente ativa. A API retorna um booleano de sucesso após o cancelamento.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de agente a cancelar. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Raspar múltiplas URLs em lote
Seção intitulada “Raspar múltiplas URLs em lote”FIRECRAWL_BATCH_SCRAPE
Raspa múltiplas URLs em lote com processamento concorrente. Use quando precisar raspar várias páginas web de forma eficiente com formatos de saída e filtragem de conteúdo personalizáveis.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
urls | array | Sim | As URLs a serem raspadas em lote. Ao menos uma URL é obrigatória. |
proxy | string | Não | Tipo de proxy a usar nas requisições (basic, stealth ou auto). |
maxAge | integer | Não | Período de validade do cache em milissegundos. Padrão: 2 dias. |
mobile | boolean | Não | Se verdadeiro, emula um dispositivo móvel durante o scraping. Padrão: false. |
actions | array | Não | Ações de browser a executar em cada página antes do scraping. |
formats | array | Não | Formatos de saída desejados para o conteúdo raspado. Padrão: ['markdown']. |
headers | object | Não | Cabeçalhos HTTP customizados a enviar com cada requisição. |
timeout | integer | Não | Timeout da requisição em milissegundos. |
waitFor | integer | Não | Atraso em milissegundos antes da recuperação do conteúdo. Útil para páginas com conteúdo dinâmico. Padrão: 0. |
webhook | object | Não | Configuração de webhook para notificações do lote. |
blockAds | boolean | Não | Se verdadeiro, bloquear anúncios durante o scraping. Padrão: true. |
location | object | Não | Configurações de localização para a requisição. |
excludeTags | array | Não | Tags HTML a excluir especificamente da saída. |
includeTags | array | Não | Tags HTML a incluir especificamente na saída. |
storeInCache | boolean | Não | Se verdadeiro, armazena o conteúdo raspado em cache para uso futuro. Padrão: true. |
maxConcurrency | integer | Não | Número máximo de operações de scraping simultâneas. |
onlyMainContent | boolean | Não | Se verdadeiro, extrai apenas o conteúdo principal, excluindo cabeçalhos, rodapés, barras de navegação e anúncios. Padrão: true. |
ignoreInvalidURLs | boolean | Não | Se verdadeiro, ignora URLs inválidas em vez de falhar o lote inteiro. Padrão: true. |
zeroDataRetention | boolean | Não | Se verdadeiro, não retém nenhum dado raspado. Padrão: false. |
removeBase64Images | boolean | Não | Se verdadeiro, remove imagens codificadas em base64 do conteúdo raspado. Padrão: true. |
skipTlsVerification | boolean | Não | Se verdadeiro, ignora a verificação do certificado TLS. Padrão: true. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Cancelar job de scraping em lote
Seção intitulada “Cancelar job de scraping em lote”FIRECRAWL_BATCH_SCRAPE_CANCEL
Cancela um job de scraping em lote em execução usando seu identificador único. Use quando precisar encerrar uma operação de scraping em lote em andamento.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de scraping em lote a cancelar. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status do scraping em lote
Seção intitulada “Obter status do scraping em lote”FIRECRAWL_BATCH_SCRAPE_GET
Recupera o status atual e os resultados de um job de scraping em lote usando o ID do job. Use para verificar o progresso e recuperar os dados raspados.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | ID do job de scraping em lote. Deve ser um UUID válido obtido quando o lote foi iniciado. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter erros do job de scraping em lote
Seção intitulada “Obter erros do job de scraping em lote”FIRECRAWL_BATCH_SCRAPE_GET_ERRORS
Recupera detalhes de erros de um job de scraping em lote, incluindo URLs com falha e URLs bloqueadas pelo robots.txt. Use quando precisar depurar ou entender por que certas páginas falharam no lote.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de scraping em lote. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Iniciar rastreamento web
Seção intitulada “Iniciar rastreamento web”FIRECRAWL_CRAWL
Inicia um rastreamento web do Firecrawl a partir de uma URL fornecida, aplicando diversas regras de filtragem e extração de conteúdo, e aguarda até a conclusão do job. Certifique-se de que a URL é acessível e que os padrões regex de caminhos são válidos.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL base a partir da qual iniciar o rastreamento. Este é o ponto de entrada inicial para o crawler. |
delay | integer | Não | Atraso em milissegundos entre requisições para evitar sobrecarregar o servidor. |
limit | integer | Não | Número máximo de páginas a rastrear. O rastreamento para ao atingir esse limite. Padrão: 10. |
webhook | string | Não | URL de webhook opcional para receber atualizações em tempo real sobre o job. Os eventos incluem início (crawl.started), página rastreada (crawl.page) e conclusão (crawl.completed ou crawl.failed). |
maxDepth | integer | Não | Profundidade máxima de subpáginas a rastrear em relação à URL informada. Profundidade 0 rastreia apenas a URL fornecida; 1 adiciona páginas um nível mais profundo, e assim por diante. |
excludePaths | array | Não | Lista de padrões regex para caminhos de URL a excluir do rastreamento. URLs cujos caminhos correspondam a algum desses padrões serão ignoradas. |
includePaths | array | Não | Lista de padrões regex para caminhos de URL a incluir no rastreamento. Somente URLs cujos caminhos correspondam a um desses padrões serão processadas. |
ignoreSitemap | boolean | Não | Se verdadeiro, o crawler ignora qualquer sitemap.xml encontrado no site. |
crawlEntireDomain | boolean | Não | Se verdadeiro, permite ao crawler seguir links internos para URLs irmãs ou pai, não apenas caminhos filhos. Substitui allowBackwardLinks. |
maxDiscoveryDepth | integer | Não | Profundidade máxima a rastrear com base na ordem de descoberta. O site raiz e páginas do sitemap têm profundidade 0. |
allowBackwardLinks | boolean | Não | DESCONTINUADO: use crawlEntireDomain. Se verdadeiro, permite ao crawler navegar para páginas já visitadas (navegação “para trás”). |
allowExternalLinks | boolean | Não | Se verdadeiro, permite ao crawler seguir links para sites externos (domínios diferentes). |
scrapeOptionsProxy | string | Não | Configuração de proxy para as requisições. |
scrapeOptionsMaxAge | integer | Não | Idade máxima em segundos para conteúdo em cache. Se mais antigo, será re-raspado. |
scrapeOptionsMobile | boolean | Não | Se verdadeiro, emula dispositivo móvel durante o scraping. |
scrapeOptionsActions | array | Não | Lista de ações a executar em cada página antes do scraping (ex: cliques, esperas). |
scrapeOptionsFormats | array | Não | Formatos de saída desejados para o conteúdo raspado de cada página. Padrão: ["markdown"]. IMPORTANTE: se "json" for incluído, scrapeOptionsJsonOptions também deve ser fornecido. |
scrapeOptionsHeaders | object | Não | Cabeçalhos HTTP customizados a enviar com cada requisição. |
scrapeOptionsTimeout | integer | Não | Timeout em milissegundos para cada requisição de página. Padrão: 30000 ms. |
scrapeOptionsWaitFor | integer | Não | Milissegundos adicionais a aguardar após a espera inteligente do Firecrawl, antes de raspar a página. |
ignoreQueryParameters | boolean | Não | Se verdadeiro, ignora parâmetros de query ao determinar se uma URL já foi visitada. |
scrapeOptionsBlockAds | boolean | Não | Se verdadeiro, bloqueia anúncios durante o scraping. |
scrapeOptionsLocation | object | Não | Configurações de geolocalização para o scraper. |
scrapeOptionsParsePDF | boolean | Não | Se verdadeiro, tenta analisar arquivos PDF encontrados durante o rastreamento. |
scrapeOptionsExcludeTags | array | Não | Lista de tags HTML a excluir da saída raspada. O conteúdo dentro dessas tags será removido antes do processamento. |
scrapeOptionsIncludeTags | array | Não | Lista de tags HTML a incluir especificamente na saída raspada. Se vazia ou nula, todo conteúdo relevante é considerado. |
scrapeOptionsJsonOptions | object | Não | Opções para extração em formato JSON, incluindo schema e prompts. OBRIGATÓRIO quando "json" for especificado em scrapeOptionsFormats. |
scrapeOptionsStoreInCache | boolean | Não | Se verdadeiro, armazena o conteúdo raspado em cache para uso futuro. |
scrapeOptionsOnlyMainContent | boolean | Não | Se verdadeiro, extrai apenas o conteúdo principal de cada página, excluindo cabeçalhos, barras de navegação e rodapés. Padrão: true. |
scrapeOptionsRemoveBase64Images | boolean | Não | Se verdadeiro, remove imagens codificadas em base64 do conteúdo raspado. |
scrapeOptionsSkipTlsVerification | boolean | Não | Se verdadeiro, ignora a verificação do certificado TLS. |
scrapeOptionsChangeTrackingOptions | object | Não | Opções para rastrear alterações entre rastreamentos. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Cancelar job de crawl
Seção intitulada “Cancelar job de crawl”FIRECRAWL_CRAWL_CANCEL
Cancela um job de rastreamento web ativo ou na fila usando seu ID. Tentar cancelar jobs concluídos, com falha ou já cancelados não altera o estado deles.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de crawl a cancelar. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Cancelar job de crawl (DELETE)
Seção intitulada “Cancelar job de crawl (DELETE)”FIRECRAWL_CRAWL_DELETE
Cancela um job de crawl em execução pelo seu ID. Use quando precisar encerrar uma operação de rastreamento ativa. A API retorna o status cancelled após o cancelamento bem-sucedido.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de crawl a cancelar. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status do job de crawl
Seção intitulada “Obter status do job de crawl”FIRECRAWL_CRAWL_GET
Recupera o status e os resultados de um job de crawl do Firecrawl. Use quando precisar verificar o progresso ou obter dados de uma operação de rastreamento em andamento ou concluída. Retorna status do crawl, métricas de progresso, créditos usados e os dados das páginas rastreadas.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | O ID do job de crawl para verificar o status. É o UUID retornado quando o crawl foi iniciado. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter erros do job de crawl
Seção intitulada “Obter erros do job de crawl”FIRECRAWL_CRAWL_GET_ERRORS
Recupera erros de um job de crawl do Firecrawl. Use quando precisar entender por que certas páginas falharam ou quais URLs foram bloqueadas pelo robots.txt durante o rastreamento.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de crawl do qual recuperar os erros. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Listar todos os jobs de crawl ativos
Seção intitulada “Listar todos os jobs de crawl ativos”FIRECRAWL_CRAWL_LIST_ACTIVE
Recupera todos os jobs de crawl ativos do time autenticado. Use quando precisar ver quais operações de rastreamento estão em execução no momento.
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Pré-visualizar parâmetros de crawl
Seção intitulada “Pré-visualizar parâmetros de crawl”FIRECRAWL_CRAWL_PARAMS_PREVIEW
Pré-visualiza os parâmetros de crawl antes de iniciar um rastreamento, gerando a configuração ideal a partir de instruções em linguagem natural. Use para entender quais configurações serão aplicadas com base nos seus requisitos antes de executar um crawl completo. O endpoint interpreta inteligentemente prompts em linguagem natural para configurar parâmetros como caminhos de inclusão/exclusão, limites de profundidade e escopo de domínio.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | O endereço do site a ser rastreado. Esta é a URL alvo para a qual os parâmetros de crawl serão gerados. |
prompt | string | Sim | Descrição em linguagem natural dos requisitos de rastreamento (máx. 10.000 caracteres). Descreva quais páginas rastrear, o que incluir ou excluir e qualquer comportamento específico necessário. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Iniciar rastreamento web v2 (NOVO)
Seção intitulada “Iniciar rastreamento web v2 (NOVO)”FIRECRAWL_CRAWL_V2
[API v2 NOVA] Inicia um crawl v2 do Firecrawl com recursos aprimorados em relação à v1: prompts em linguagem natural para configuração automática do crawler, crawlEntireDomain para descoberta de páginas irmãs/pai, melhor controle de profundidade com maxDiscoveryDepth, suporte a subdomínios e configuração completa de webhook. Aguarda até a conclusão do crawl.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL base para iniciar o rastreamento. Este é o ponto de entrada inicial para o crawler. |
delay | integer | Não | Atraso em segundos entre raspagens para respeitar os limites de taxa do site. |
limit | integer | Não | Número máximo de páginas a rastrear. Padrão: 10. |
prompt | string | Não | Prompt em linguagem natural para gerar automaticamente as configurações do crawler. Parâmetros explicitamente definidos sobrescrevem os gerados. |
sitemap | string | Não | Modo de sitemap: include (padrão) usa sitemap e descobre outras páginas; skip ignora sitemap; only rastreia exclusivamente URLs do sitemap. |
webhook | object | Não | Configuração de webhook para receber atualizações em tempo real do crawl. |
excludePaths | array | Não | Lista de padrões regex para caminhos de URL a excluir do rastreamento. |
includePaths | array | Não | Lista de padrões regex para caminhos de URL a incluir no rastreamento. |
maxConcurrency | integer | Não | Número máximo de raspagens simultâneas. Se não especificado, usa o limite de concorrência do time. |
allowSubdomains | boolean | Não | Se verdadeiro, permite ao crawler seguir links para subdomínios do domínio principal. |
crawlEntireDomain | boolean | Não | Permite ao crawler seguir links internos para URLs irmãs e pai, não apenas caminhos filhos. |
maxDiscoveryDepth | integer | Não | Profundidade máxima de rastreamento com base na ordem de descoberta. O site raiz e páginas do sitemap têm profundidade 0. |
zeroDataRetention | boolean | Não | Se verdadeiro, habilita retenção zero de dados para este crawl. Contate help@firecrawl.dev para habilitar. |
allowExternalLinks | boolean | Não | Se verdadeiro, permite ao crawler seguir links para sites externos. Padrão: false. |
scrapeOptions_proxy | string | Não | Configuração de proxy para as requisições. |
scrapeOptions_maxAge | integer | Não | Idade máxima em milissegundos para conteúdo em cache. Se mais antigo, será re-raspado. |
scrapeOptions_mobile | boolean | Não | Se verdadeiro, emula dispositivo móvel durante o scraping. |
ignoreQueryParameters | boolean | Não | Se verdadeiro, não re-raspa o mesmo caminho com parâmetros de query diferentes (ou sem parâmetros). |
scrapeOptions_actions | array | Não | Lista de ações a executar em cada página antes do scraping (ex: cliques, esperas). |
scrapeOptions_formats | array | Não | Formatos de saída desejados para o conteúdo raspado de cada página. Para extração JSON, use um objeto JsonFormatOptions com type="json", schema opcional e prompt opcional. |
scrapeOptions_headers | object | Não | Cabeçalhos HTTP customizados a enviar com cada requisição. |
scrapeOptions_parsers | array | Não | Lista de parsers a usar para tipos de conteúdo específicos (ex: pdf). |
scrapeOptions_timeout | integer | Não | Timeout em milissegundos para cada requisição de página. Padrão: 30000 ms. |
scrapeOptions_waitFor | integer | Não | Duração em milissegundos a aguardar para que o JavaScript da página execute e o conteúdo carregue antes do scraping. |
scrapeOptions_blockAds | boolean | Não | Se verdadeiro, bloqueia anúncios durante o scraping. |
scrapeOptions_location | object | Não | Configurações de geolocalização para o scraper. |
scrapeOptions_excludeTags | array | Não | Lista de tags HTML a excluir da saída raspada. |
scrapeOptions_includeTags | array | Não | Lista de tags HTML a incluir especificamente na saída raspada. |
scrapeOptions_storeInCache | boolean | Não | Se verdadeiro, armazena o conteúdo raspado em cache para uso futuro. |
scrapeOptions_onlyMainContent | boolean | Não | Se verdadeiro, extrai apenas o conteúdo principal de cada página. Padrão: true. |
scrapeOptions_removeBase64Images | boolean | Não | Se verdadeiro, remove imagens codificadas em base64 do conteúdo raspado. |
scrapeOptions_skipTlsVerification | boolean | Não | Se verdadeiro, ignora a verificação do certificado TLS. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter uso de créditos do time
Seção intitulada “Obter uso de créditos do time”FIRECRAWL_CREDIT_USAGE_GET
Obtém informações sobre o uso atual de créditos do time. Use quando precisar verificar créditos restantes ou detalhes do período de cobrança.
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter histórico de uso de créditos do time
Seção intitulada “Obter histórico de uso de créditos do time”FIRECRAWL_CREDIT_USAGE_GET_HISTORICAL
Recupera o histórico de uso de créditos do time em base mensal. Use quando precisar analisar padrões de consumo de créditos ao longo do tempo, opcionalmente segmentado por chave de API.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
byApiKey | boolean | Não | Quando habilitado, detalha o uso por chave de API individual. Padrão: false. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Realizar pesquisa profunda
Seção intitulada “Realizar pesquisa profunda”FIRECRAWL_DEEP_RESEARCH
Inicia uma operação de pesquisa profunda com IA que explora autonomamente a web para investigar qualquer tópico e sintetiza conclusões de múltiplas fontes. Requer uma conexão ativa com o Firecrawl. O processo de pesquisa itera sobre buscas, análises e síntese de informações em múltiplas fontes web, fornecendo insights abrangentes com citações. Os resultados incluem análise final, linha do tempo detalhada de atividades e lista de fontes selecionadas. Cobrança: 1 crédito por URL analisada. Controle custos com o parâmetro maxUrls. Nota: Esta API está em Alpha e será descontinuada após 30 de junho de 2025; prefira FIRECRAWL_SEARCH + FIRECRAWL_EXTRACT ou COMPOSIO_SEARCH_WEB para fluxos duráveis.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
query | string | Sim | A pergunta ou tópico de pesquisa a investigar. Forneça uma pergunta ou tópico claro e específico para melhores resultados. |
formats | array | Não | Lista de formatos de saída. Defina como ["json"] para obter saída JSON estruturada. Ao usar "json", também forneça jsonOptions. |
maxUrls | integer | Não | Número máximo de URLs a analisar durante a pesquisa. Intervalo: 1–1000. Padrão: 20. Valores maiores fornecem resultados mais abrangentes, mas consomem mais créditos (1 crédito por URL). |
maxDepth | integer | Não | Controla quantas iterações o processo de pesquisa percorre. Intervalo: 1–10. Padrão: 7. Maior profundidade = pesquisa mais completa, mas maior tempo de processamento. |
timeLimit | integer | Não | Limite de tempo para o job de pesquisa em segundos. Intervalo: 30–300 segundos. Padrão: 270. A pesquisa para ao atingir esse limite. |
jsonOptions | object | Não | Configuração para saída JSON estruturada. Deve conter "schema" (um JSON Schema válido) ou "prompt" (uma string). |
systemPrompt | string | Não | Prompt de sistema customizado para guiar o processo de exploração do agente de pesquisa. |
analysisPrompt | string | Não | Prompt customizado para guiar a geração da síntese e análise final. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Extrair dados estruturados
Seção intitulada “Extrair dados estruturados”FIRECRAWL_EXTRACT
Extrai dados estruturados de páginas web iniciando um job de extração e aguardando a conclusão. Requer um prompt em linguagem natural ou um schema JSON (pelo menos um deve ser fornecido).
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
urls | array | Sim | Lista de URLs das quais extrair dados (máximo 10 URLs na versão beta). Curingas (ex: https://example.com/blog/*) podem ser usados para rastrear múltiplas páginas sob um caminho específico. |
prompt | string | Não | Consulta em linguagem natural para as informações a extrair do conteúdo das URLs. Pelo menos um de prompt ou schema deve ser fornecido. |
schema | object | Não | Objeto JSON definindo a estrutura desejada para os dados extraídos. Deve ser um JSON Schema válido com propriedades e tipos. Pelo menos um de prompt ou schema deve ser fornecido. |
showSources | boolean | Não | Quando verdadeiro, as fontes usadas para extração serão incluídas na resposta na chave sources. |
ignoreSitemap | boolean | Não | Ignora o sitemap.xml durante a varredura. |
scrapeOptions | object | Não | Configuração avançada de scraping. |
enableWebSearch | boolean | Não | Se verdadeiro, permite rastrear links fora dos domínios iniciais em urls; se falso, restringe aos mesmos domínios. |
ignoreInvalidURLs | boolean | Não | Prossegue com URLs válidas, retornando as inválidas separadamente. |
includeSubdomains | boolean | Não | Estende a varredura para subdomínios. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status do job de extração
Seção intitulada “Obter status do job de extração”FIRECRAWL_EXTRACT_GET
Recupera o status e os resultados de um job de extração enviado anteriormente. Use quando precisar verificar o progresso ou obter os resultados finais de uma operação de extração.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (formato UUID) do job de extração a recuperar. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status do job de agente
Seção intitulada “Obter status do job de agente”FIRECRAWL_GET_AGENT_STATUS
Obtém o status e os resultados de um job de agente. Use quando precisar verificar se um job de agente foi concluído e recuperar os dados coletados. Os jobs de agente buscam, navegam e extraem dados da web de forma autônoma.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de agente. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status da pesquisa profunda
Seção intitulada “Obter status da pesquisa profunda”FIRECRAWL_GET_DEEP_RESEARCH_STATUS
Recupera o status e os resultados de um job de pesquisa profunda pelo seu ID. Use quando precisar verificar o progresso ou obter a análise final de uma operação de pesquisa profunda.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de pesquisa profunda. Deve ser o UUID retornado por FIRECRAWL_DEEP_RESEARCH; UUIDs arbitrários não são válidos. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status de job de crawl (v1)
Seção intitulada “Obter status de job de crawl (v1)”FIRECRAWL_GET_THE_STATUS_OF_A_CRAWL_JOB
Recupera o status atual, o progresso e os detalhes de um job de rastreamento web, usando o ID do job obtido quando o crawl foi iniciado.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de crawl. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Gerar LLMs.txt para um site
Seção intitulada “Gerar LLMs.txt para um site”FIRECRAWL_LLMS_TXT_GENERATE
Inicia um job assíncrono para gerar um arquivo LLMs.txt para um site, convertendo conteúdo web em formato amigável para LLMs. Retorna um ID de job para verificar o status e recuperar os resultados. Use quando precisar criar uma representação padronizada e legível por máquina do conteúdo de um site para modelos de linguagem.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL para gerar o LLMs.txt. Deve ser um URI válido. |
maxUrls | integer | Não | Número máximo de URLs a analisar ao gerar o arquivo LLMs.txt. Deve estar entre 1 e 100. Padrão: 10. |
showFullText | boolean | Não | Inclui o conteúdo de texto completo na resposta. Quando verdadeiro, gera tanto llmstxt quanto llmsfulltxt. Padrão: false. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status do job de geração de LLMs.txt
Seção intitulada “Obter status do job de geração de LLMs.txt”FIRECRAWL_LLMS_TXT_GET
Obtém o status e os resultados de um job de geração de LLMs.txt. Use quando precisar verificar se o job foi concluído e recuperar o conteúdo gerado.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
id | string | Sim | Identificador único (UUID) do job de geração de LLMs.txt. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Mapear múltiplas URLs
Seção intitulada “Mapear múltiplas URLs”FIRECRAWL_MAP_MULTIPLE_URLS_BASED_ON_OPTIONS
Mapeia um site descobrindo URLs a partir de uma URL base, com opções para personalizar o rastreamento via consulta de busca, inclusão de subdomínios, tratamento de sitemap e limites de resultados. A efetividade da busca depende do site.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL inicial do site a mapear e descobrir links. Deve ser uma URL HTTP/HTTPS válida (ex: https://example.com). Não passe trechos de código, exemplos de SDK ou qualquer coisa que não seja uma URL simples. |
limit | integer | Não | Número máximo de links a retornar. Padrão: 5000. Máximo: 100000. |
search | string | Não | Consulta de busca opcional para guiar o mapeamento de URLs, priorizando ou encontrando tipos específicos de páginas. |
sitemap | string | Não | Modo de tratamento do sitemap: skip para excluir sitemaps, include para usar sitemaps com outros métodos de descoberta (comportamento padrão) ou only para retornar apenas URLs do sitemap. |
timeout | integer | Não | Timeout em milissegundos. Sem timeout por padrão. |
location | object | Não | Configurações geográficas para processamento de requisições por localização. Objeto com country (código ISO 3166-1 alpha-2, ex: US, DE, JP) e opcionalmente languages (array de códigos de idioma). |
ignoreCache | boolean | Não | Se verdadeiro, ignora dados de sitemap em cache. Útil quando sitemaps foram atualizados recentemente. Dados de sitemap são armazenados em cache por até 7 dias. Padrão: false. |
includeSubdomains | boolean | Não | Se verdadeiro, inclui subdomínios da URL base no mapeamento. Padrão: true. |
ignoreQueryParameters | boolean | Não | Se verdadeiro, exclui URLs com parâmetros de query dos resultados. Padrão: true. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter status da fila do time
Seção intitulada “Obter status da fila do time”FIRECRAWL_QUEUE_GET
Recupera métricas sobre a fila de scraping do time. Use quando precisar verificar o status da fila, contagem de jobs ou limites de concorrência.
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Raspar URL
Seção intitulada “Raspar URL”FIRECRAWL_SCRAPE
Raspa uma URL publicamente acessível, opcionalmente executando ações no browser antes da raspagem ou extraindo JSON estruturado usando um LLM, para recuperar conteúdo nos formatos especificados.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL completa da página web a raspar. Deve começar com http:// ou https:// e ser uma URL web válida. |
actions | array | Não | Lista opcional de ações no browser (ex: clicar, escrever, aguardar, pressionar tecla) a executar na página antes da raspagem. Útil para interagir com conteúdo dinâmico, preencher formulários ou navegar por elementos. |
formats | array | Não | Lista de formatos de saída desejados para o conteúdo raspado. Padrão: ['markdown']. Não pode incluir screenshot e screenshot@fullPage simultaneamente. Se json for incluído, jsonOptions deve ser fornecido. |
timeout | integer | Não | Tempo máximo em milissegundos para aguardar a conclusão da requisição. Padrão: 30000. |
waitFor | integer | Não | Tempo em milissegundos a aguardar para que a página carregue ou o conteúdo dinâmico renderize antes de iniciar a raspagem. Padrão: 0. |
location | object | Não | Configurações de localização para a requisição. |
excludeTags | array | Não | Lista de tags HTML a excluir especificamente da saída. O conteúdo dentro dessas tags será removido. |
includeTags | array | Não | Lista de tags HTML a incluir especificamente na saída. O conteúdo dentro dessas tags será priorizado. |
jsonOptions | object | Não | Opções para extração JSON. |
onlyMainContent | boolean | Não | Se verdadeiro, extrai apenas o conteúdo principal do artigo, excluindo cabeçalhos, rodapés, barras de navegação e anúncios. Padrão: true. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Pesquisar
Seção intitulada “Pesquisar”FIRECRAWL_SEARCH
Realiza uma busca na web por uma consulta, raspa o conteúdo dos principais resultados de busca usando o Firecrawl e retorna detalhes nos formatos especificados.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
q | string | Sim | A consulta de busca a executar. Pode ser fornecida como query ou q. |
lang | string | Não | Código de idioma para os resultados de busca (ex: en para inglês). Padrão: en. |
limit | integer | Não | Número máximo de resultados de busca a retornar (1–100). Padrão: 5. |
country | string | Não | Código de país para personalizar os resultados (ex: us para Estados Unidos). Padrão: us. |
formats | array | Não | Formatos de saída desejados para o conteúdo raspado de cada resultado. Formatos de string disponíveis: markdown, html, rawHtml, links. Para capturas de tela, use formato objeto: {'type': 'screenshot', 'fullPage': true/false, 'quality': 1-100}. |
timeout | integer | Não | Tempo máximo em milissegundos para operações de busca e scraping (1000–300000). Padrão: 60000. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Iniciar job de agente
Seção intitulada “Iniciar job de agente”FIRECRAWL_START_AGENT
Inicia um job de agente para extração web agêntica com capacidades de navegação e interação em múltiplas páginas. Use quando precisar coletar dados da web de forma autônoma com requisitos complexos de navegação. O agente pode buscar, navegar e extrair informações em múltiplas páginas com base no seu prompt em linguagem natural.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
urls | array | Não | URLs específicas para restringir a busca do agente. Se fornecidas, o agente começa por elas. Se não fornecidas, o agente busca autonomamente na web. |
prompt | string | Sim | Descrição em linguagem natural dos dados que você deseja extrair. O agente navega e interage autonomamente com páginas web para coletar essas informações. |
schema | object | Não | JSON Schema definindo a estrutura dos dados que você deseja retornar. Deve ser um JSON Schema válido com propriedades e tipos. |
maxCredits | integer | Não | Créditos máximos a gastar na requisição. O agente para ao atingir esse limite, prevenindo custos inesperados. Se não especificado, continua até a conclusão da tarefa. |
strictConstrainToURLs | boolean | Não | Se verdadeiro, restringe estritamente o agente apenas às URLs fornecidas e não navegará para links externos. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter uso de tokens do time
Seção intitulada “Obter uso de tokens do time”FIRECRAWL_TOKEN_USAGE_GET
Recupera informações sobre o uso atual de tokens e saldo do time para o recurso Extract do Firecrawl. Use quando precisar verificar créditos de tokens restantes, alocação do plano ou detalhes do período de cobrança.
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |
Obter histórico de uso de tokens do time
Seção intitulada “Obter histórico de uso de tokens do time”FIRECRAWL_TOKEN_USAGE_GET_HISTORICAL
Recupera o histórico de uso de tokens do time em base mensal. Use quando precisar analisar padrões de consumo de tokens ao longo do tempo, opcionalmente segmentado por chave de API.
Parâmetros de entrada
Seção intitulada “Parâmetros de entrada”| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
byApiKey | boolean | Não | Quando habilitado, detalha o uso por chave de API individual. Padrão: false. |
| Nome | Tipo | Obrigatório | Descrição |
|---|---|---|---|
data | string | Sim | Dados retornados pela execução da ação. |
error | string | Não | Mensagem de erro caso a execução tenha falhado. |
successful | boolean | Sim | Indica se a ação foi executada com sucesso. |