Processamento Multimodal

Envie imagens, PDFs, vídeos e áudio para modelos de IA com capacidades de visão e processamento multimodal.

17/01/2025
Nesta Página

Processamento Multimodal

Vá além do texto! Use modelos de IA com capacidades de visão e processamento multimodal para analisar imagens, extrair informações de PDFs, transcrever áudio e muito mais.

Visão Geral

O que é Processamento Multimodal?

Multimodal significa que os modelos de IA podem processar e entender diferentes tipos de mídia:

  • 📷 Imagens - Análise visual, OCR, detecção de objetos
  • 📄 PDFs - Extração de texto, análise de documentos
  • 🎥 Vídeos - Análise de frames, transcrição
  • 🎵 Áudio - Transcrição, análise de sentimento
  • 📊 Gráficos - Interpretação de dados visuais

Modelos com Suporte Multimodal

ModeloImagemPDFVídeoÁudioContexto
GPT-4 Turbo128k
GPT-4o128k
Claude 3 Opus200k
Claude 3 Sonnet200k
Claude 3 Haiku200k
Gemini 2.5 Pro2M
Gemini 2.0 Flash1M

Processamento de Imagens

Upload de Imagens

Via Dashboard

  1. Crie ou edite uma tarefa
  2. Na seção "Attachments", clique em "Upload Image"
  3. Selecione a imagem (PNG, JPG, WebP, GIF)
  4. Referencie no prompt usando {{image_1}}, {{image_2}}, etc.

Via API

POST /api/tasks
{
  "name": "Análise de Imagem",
  "schedule": "0 9 * * *",
  "model": "openai/gpt-4-turbo",
  "prompt": "Analise esta imagem e descreva o que você vê: {{image_1}}",
  "attachments": [
    {
      "type": "image",
      "url": "https://example.com/image.jpg"
    }
  ]
}

Casos de Uso - Imagens

1. Análise de Produtos E-commerce

{
  "task_name": "Gerar Descrição de Produto",
  "schedule": "manual",
  "model": "anthropic/claude-3-sonnet",
  "prompt": "Analise esta foto do produto e gere:\n\n1. Descrição detalhada (100-150 palavras)\n2. 5 características principais\n3. 3 benefícios para o cliente\n4. Palavras-chave SEO (10 palavras)\n5. Categoria sugerida\n\nImagem: {{image_1}}",
  "attachments": [
    {
      "type": "image",
      "variable": "image_1",
      "source": "upload"
    }
  ],
  "temperature": 0.7
}

Output Esperado:

Descrição: Esta elegante mesa de jantar em madeira maciça...

Características:
- Madeira de carvalho natural
- Capacidade para 6 pessoas
- Acabamento em verniz premium
- Pés torneados artesanalmente
- Dimensões: 180cm x 90cm

Benefícios:
- Durabilidade superior por gerações
- Valoriza o ambiente com elegância atemporal
- Fácil manutenção e limpeza

SEO: mesa jantar madeira, mesa carvalho 6 lugares...

Categoria: Móveis > Sala de Jantar > Mesas

2. Moderação de Conteúdo

{
  "task_name": "Moderar Upload de Imagens",
  "schedule": "*/5 * * * *",
  "model": "google/gemini-2.0-flash",
  "prompt": "Analise esta imagem e classifique:\n\n{{image_1}}\n\nCritérios:\n- Conteúdo adulto: Sim/Não\n- Violência: Sim/Não\n- Spam: Sim/Não\n- Qualidade (1-10):\n- Aprovado: Sim/Não\n\nRetorne apenas JSON:\n```json\n{\n  \"adult\": false,\n  \"violence\": false,\n  \"spam\": false,\n  \"quality\": 8,\n  \"approved\": true,\n  \"reason\": \"Imagem adequada\"\n}\n```",
  "temperature": 0.1,
  "notifications": {
    "webhook": {
      "url": "https://api.empresa.com/moderation/callback",
      "on_success": true
    }
  }
}

3. OCR e Extração de Texto

{
  "task_name": "Extrair Texto de Nota Fiscal",
  "model": "openai/gpt-4-turbo",
  "prompt": "Extraia as seguintes informações desta nota fiscal:\n\n{{image_1}}\n\nRetorne JSON com:\n- numero_nota\n- data_emissao\n- cnpj_emissor\n- razao_social\n- valor_total\n- itens (array com descricao, quantidade, valor_unitario)\n\n```json\n{\n  \"numero_nota\": \"...\",\n  ...\n}\n```",
  "temperature": 0.0
}

4. Análise de Screenshots

{
  "task_name": "Revisar Design UI",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise este screenshot de interface:\n\n{{image_1}}\n\nForneça feedback sobre:\n\n1. **Usabilidade**\n   - Hierarquia visual\n   - Clareza de CTAs\n   - Consistência de espaçamento\n\n2. **Acessibilidade**\n   - Contraste de cores\n   - Tamanho de fontes\n   - Affordances\n\n3. **Design Visual**\n   - Alinhamento\n   - Paleta de cores\n   - Tipografia\n\n4. **Sugestões de Melhoria** (top 5)\n\n5. **Score geral** (0-10)",
  "temperature": 0.4
}

5. Comparação de Imagens

{
  "task_name": "Comparar Antes/Depois",
  "model": "google/gemini-2.5-pro",
  "prompt": "Compare estas duas imagens:\n\nAntes: {{image_1}}\nDepois: {{image_2}}\n\nIdentifique:\n1. Diferenças principais\n2. Melhorias observadas\n3. Aspectos negativos (se houver)\n4. Score de melhoria (0-100%)\n5. Recomendações adicionais",
  "attachments": [
    {"type": "image", "variable": "image_1"},
    {"type": "image", "variable": "image_2"}
  ]
}

Processamento de PDFs

Upload de PDFs

{
  "task_name": "Analisar Contrato",
  "model": "google/gemini-2.5-pro",  // Melhor para PDFs longos
  "prompt": "Analise este contrato completo:\n\n{{pdf_1}}\n\nExtraia:\n\n1. **Partes envolvidas**\n2. **Objeto do contrato**\n3. **Valor total e condições de pagamento**\n4. **Prazo de vigência**\n5. **Cláusulas de rescisão**\n6. **Penalidades**\n7. **Riscos potenciais** (destaque em vermelho)\n8. **Pontos de atenção** para revisão jurídica\n\nFormato: Relatório executivo (2 páginas max)",
  "attachments": [
    {
      "type": "pdf",
      "variable": "pdf_1",
      "url": "https://storage.empresa.com/contratos/2025/contrato-123.pdf"
    }
  ],
  "temperature": 0.2
}

Casos de Uso - PDFs

1. Análise de Currículos

{
  "task_name": "Triagem de Currículos",
  "schedule": "*/30 * * * *",
  "model": "anthropic/claude-3-sonnet",
  "prompt": "Analise este currículo:\n\n{{pdf_1}}\n\nCargo: {{job_title}}\n\nRequisitos:\n{{job_requirements}}\n\nAvalie (0-10):\n- Match de experiência\n- Match de habilidades técnicas\n- Formação acadêmica\n- Clareza de comunicação\n- Progressão de carreira\n\nRetorne JSON:\n```json\n{\n  \"name\": \"...\",\n  \"email\": \"...\",\n  \"phone\": \"...\",\n  \"experience_years\": 5,\n  \"scores\": {\n    \"experience_match\": 8,\n    \"technical_skills\": 9,\n    \"education\": 7,\n    \"communication\": 8,\n    \"career_progression\": 8\n  },\n  \"total_score\": 8.0,\n  \"recommendation\": \"Aprovar para entrevista\",\n  \"highlights\": [...],\n  \"concerns\": [...]\n}\n```",
  "temperature": 0.2
}

2. Extração de Dados Financeiros

{
  "task_name": "Processar Demonstrativo Financeiro",
  "model": "openai/gpt-4-turbo",
  "prompt": "Extraia os dados deste demonstrativo financeiro:\n\n{{pdf_1}}\n\nGere JSON estruturado com:\n- Receita total\n- Custos operacionais\n- Lucro bruto\n- Lucro líquido\n- EBITDA\n- Margem de lucro\n- Principais destaques\n- Alertas (variações >20%)",
  "temperature": 0.0
}

3. Resumo de Relatórios

{
  "task_name": "Resumir Relatório Executivo",
  "model": "google/gemini-2.5-pro",
  "prompt": "Resuma este relatório de 50 páginas:\n\n{{pdf_1}}\n\nCrie um resumo executivo de 1 página com:\n\n## Executive Summary\n- Contexto (2-3 linhas)\n- Principais descobertas (bullet points)\n- Recomendações (top 3)\n- Próximos passos\n\n## Key Metrics\n- Tabela com métricas principais\n\n## Risk Assessment\n- Riscos identificados (High/Medium/Low)\n\n## Action Items\n- Lista priorizada de ações",
  "temperature": 0.4
}

4. Compliance e Regulamentação

{
  "task_name": "Verificar Compliance LGPD",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise esta política de privacidade:\n\n{{pdf_1}}\n\nVerifique conformidade com LGPD:\n\n✅ Checklist:\n- [ ] Base legal para tratamento de dados\n- [ ] Finalidades específicas\n- [ ] Direitos dos titulares listados\n- [ ] DPO identificado\n- [ ] Prazo de retenção definido\n- [ ] Compartilhamento com terceiros descrito\n- [ ] Medidas de segurança explicadas\n- [ ] Canal de comunicação disponível\n\nScore de compliance: __/100\n\nNão conformidades críticas:\n1. ...\n2. ...\n\nRecomendações:\n1. ...\n2. ...",
  "temperature": 0.2
}

Processamento de Vídeo

Modelos Recomendados

  • Gemini 2.5 Pro - Melhor qualidade, análise profunda
  • Gemini 2.0 Flash - Velocidade, custo-benefício
  • GPT-4o - Boa alternativa

Upload de Vídeos

{
  "task_name": "Analisar Vídeo Marketing",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise este vídeo de marketing:\n\n{{video_1}}\n\nForneça:\n\n1. **Resumo do conteúdo** (1 parágrafo)\n2. **Transcrição completa** (timestamps)\n3. **Elementos visuais principais** (por cena)\n4. **Análise de qualidade**\n   - Iluminação\n   - Áudio\n   - Edição\n   - Ritmo\n5. **Sentimento transmitido**\n6. **CTA identificados**\n7. **Score de engajamento** (0-10)\n8. **Sugestões de melhoria**",
  "attachments": [
    {
      "type": "video",
      "variable": "video_1",
      "url": "https://storage.empresa.com/videos/marketing-campaign-q1.mp4",
      "max_duration": 300  // Máximo 5 minutos
    }
  ],
  "temperature": 0.5
}

Casos de Uso - Vídeo

1. Moderação de Conteúdo

{
  "task_name": "Moderar Upload de Vídeos",
  "model": "google/gemini-2.0-flash",
  "prompt": "Analise este vídeo enviado por usuário:\n\n{{video_1}}\n\nVerifique:\n- Conteúdo inapropriado\n- Violência\n- Spam\n- Qualidade do vídeo\n- Duração adequada\n\nRetorne JSON:\n```json\n{\n  \"approved\": true/false,\n  \"content_flags\": [],\n  \"quality_score\": 8,\n  \"duration_seconds\": 45,\n  \"reason\": \"...\"\n}\n```",
  "temperature": 0.0,
  "notifications": {
    "webhook": "https://api.empresa.com/moderation/video-callback"
  }
}

2. Geração de Legendas

{
  "task_name": "Gerar Legendas Automáticas",
  "model": "google/gemini-2.5-pro",
  "prompt": "Transcreva este vídeo e gere arquivo SRT de legendas:\n\n{{video_1}}\n\nFormato SRT com timestamps precisos:\n\n1\n00:00:00,000 --> 00:00:03,500\nTexto da primeira legenda\n\n2\n00:00:03,500 --> 00:00:07,200\nTexto da segunda legenda\n\n...",
  "temperature": 0.1
}

3. Análise de Tutoriais

{
  "task_name": "Analisar Tutorial Técnico",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise este vídeo tutorial:\n\n{{video_1}}\n\nCrie:\n\n1. **Índice com timestamps**\n   - 00:00 - Introdução\n   - 01:30 - Conceitos básicos\n   - ...\n\n2. **Passo a passo escrito**\n   - Extraia cada etapa do tutorial\n   - Adicione screenshots dos momentos-chave\n\n3. **Requisitos técnicos** mencionados\n\n4. **Dificuldade** (Iniciante/Intermediário/Avançado)\n\n5. **Tempo estimado** para reproduzir\n\n6. **Recursos necessários**",
  "temperature": 0.3
}

Processamento de Áudio

Upload de Áudio

{
  "task_name": "Transcrever Reunião",
  "model": "openai/gpt-4o",
  "prompt": "Transcreva esta reunião e forneça:\n\n{{audio_1}}\n\n1. **Transcrição completa** com identificação de speakers\n2. **Resumo executivo** (5 bullet points)\n3. **Action items** identificados\n4. **Decisões tomadas**\n5. **Próximos passos**\n6. **Participantes** mencionados",
  "attachments": [
    {
      "type": "audio",
      "variable": "audio_1",
      "url": "https://storage.empresa.com/recordings/meeting-2025-01-17.mp3"
    }
  ],
  "temperature": 0.2
}

Casos de Uso - Áudio

1. Análise de Chamadas de Suporte

{
  "task_name": "Analisar Chamada de Suporte",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise esta chamada de atendimento:\n\n{{audio_1}}\n\nForneça:\n\n1. **Transcrição**\n   - Cliente: ...\n   - Atendente: ...\n   - Cliente: ...\n\n2. **Análise de Sentimento**\n   - Cliente: Satisfeito/Neutro/Insatisfeito\n   - Atendente: Profissional/Empático/Apressado\n\n3. **Problema relatado**\n\n4. **Solução fornecida**\n\n5. **Qualidade do atendimento** (0-10)\n   - Empatia\n   - Clareza\n   - Eficiência\n   - Profissionalismo\n\n6. **Oportunidades de melhoria**\n\n7. **Follow-up necessário?** Sim/Não",
  "temperature": 0.3
}

2. Análise de Vendas

{
  "task_name": "Analisar Pitch de Vendas",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise esta ligação de vendas:\n\n{{audio_1}}\n\nAvalie:\n\n1. **Estrutura da chamada**\n   - Abertura eficaz?\n   - Descoberta de necessidades?\n   - Apresentação de valor?\n   - Tratamento de objeções?\n   - Fechamento?\n\n2. **Técnicas utilizadas**\n   - Rapport building\n   - SPIN selling\n   - Storytelling\n   - Social proof\n\n3. **Objeções levantadas** e como foram tratadas\n\n4. **Resultado** (Venda fechada / Follow-up / Perdido)\n\n5. **Score de performance** (0-10)\n\n6. **Coaching points** (top 3)\n\n7. **Exemplos a replicar**",
  "temperature": 0.4
}

3. Geração de Atas de Reunião

{
  "task_name": "Gerar Ata de Reunião",
  "schedule": "manual",
  "model": "openai/gpt-4o",
  "prompt": "A partir desta gravação de reunião:\n\n{{audio_1}}\n\nGere uma ata formal:\n\n---\n**ATA DE REUNIÃO**\n\n**Data:** {{current_date}}\n**Participantes:**\n- Nome 1 (Cargo)\n- Nome 2 (Cargo)\n\n**Pauta:**\n1. Item 1\n2. Item 2\n\n**Discussões:**\n- Tópico 1: Resumo da discussão...\n- Tópico 2: Resumo da discussão...\n\n**Decisões:**\n1. Decisão tomada...\n2. Decisão tomada...\n\n**Action Items:**\n- [ ] Tarefa 1 - Responsável: Nome - Prazo: Data\n- [ ] Tarefa 2 - Responsável: Nome - Prazo: Data\n\n**Próxima Reunião:** Data e horário\n\n---",
  "temperature": 0.3,
  "notifications": {
    "email": {
      "enabled": true,
      "recipients": ["{{meeting_participants}}"],
      "subject": "Ata da Reunião - {{meeting_title}}"
    }
  }
}

Combinando Múltiplas Mídias

Análise Multi-formato

{
  "task_name": "Análise Completa de Campanha",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise todos os assets desta campanha de marketing:\n\n**Vídeo:** {{video_1}}\n**Imagens:** {{image_1}}, {{image_2}}, {{image_3}}\n**Briefing PDF:** {{pdf_1}}\n**Áudio do Jingle:** {{audio_1}}\n\nForneça análise completa:\n\n## 1. Consistência de Marca\n- Cores\n- Tipografia\n- Tom de voz\n- Mensagem principal\n\n## 2. Alinhamento com Briefing\n- Objetivos atingidos?\n- Target audience adequado?\n- KPIs mensuráveis?\n\n## 3. Qualidade Técnica\n- Vídeo (resolução, edição, áudio)\n- Imagens (qualidade, composição)\n- Jingle (produção, memorabilidade)\n\n## 4. Score Geral (0-10)\n- Criatividade\n- Execução\n- Alinhamento estratégico\n- Potencial de conversão\n\n## 5. Recomendações\n- O que manter\n- O que ajustar\n- Próximos passos",
  "attachments": [
    {"type": "video", "variable": "video_1"},
    {"type": "image", "variable": "image_1"},
    {"type": "image", "variable": "image_2"},
    {"type": "image", "variable": "image_3"},
    {"type": "pdf", "variable": "pdf_1"},
    {"type": "audio", "variable": "audio_1"}
  ],
  "temperature": 0.5
}

Limites e Otimização

Tamanhos Máximos por Tipo

TipoFreeProBusiness
Imagem5MB20MB50MB
PDF10MB / 50 páginas50MB / 500 páginas200MB / Ilimitado
Vídeo-100MB / 5min500MB / 30min
Áudio-50MB / 30min200MB / 2h

Formatos Suportados

Imagens

  • PNG, JPG, JPEG, WebP, GIF
  • Resolução máxima: 4096x4096px

PDFs

  • Versão 1.4 ou superior
  • OCR automático para PDFs escaneados

Vídeos

  • MP4, MOV, AVI, WebM
  • Codecs: H.264, H.265, VP9

Áudio

  • MP3, WAV, M4A, OGG
  • Taxa de amostragem: 16kHz - 48kHz

Otimização de Custos

// Imagens
- Reduza resolução para max 1920x1080 se não precisar de detalhes
- Use compressão (70-80% quality é suficiente)
- Considere converter para WebP
 
// PDFs
- Extraia apenas páginas relevantes
- Use OCR apenas se necessário
- Considere Gemini 2.5 Pro para PDFs longos (contexto maior)
 
// Vídeos
- Reduza FPS para 15-24 se análise não exigir mais
- Corte apenas o trecho relevante
- Reduza resolução para 720p se possível
 
// Áudio
- Mono channel é suficiente para transcrições
- 16kHz sample rate para voz humana
- Remova silêncios longos antes do upload

Segurança e Privacidade

Armazenamento

  • Criptografia em repouso (AES-256)
  • Criptografia em trânsito (TLS 1.3)
  • Retenção: 30 dias (configurável)
  • Auto-delete após processamento (opcional)

Dados Sensíveis

{
  "privacy": {
    "auto_delete_after_processing": true,
    "encrypt_storage": true,
    "do_not_train": true,  // Não usar para treinar modelos
    "anonymize_pii": true  // Remover PII do output
  }
}

Compliance

  • GDPR compliant
  • LGPD compliant
  • HIPAA (plano Enterprise)
  • SOC 2 Type II certified

Troubleshooting

Erro: "File too large"

  1. Verifique limites do seu plano
  2. Comprima o arquivo
  3. Para vídeos, reduza duração/resolução

Erro: "Format not supported"

  1. Converta para formato suportado
  2. Use ffmpeg para conversão:
# Vídeo para MP4
ffmpeg -i input.avi -c:v libx264 output.mp4
 
# Áudio para MP3
ffmpeg -i input.wav -codec:a libmp3lame output.mp3

Qualidade ruim no OCR

  1. Aumente resolução da imagem (min 300 DPI)
  2. Melhore contraste
  3. Use GPT-4 Turbo ou Claude 3 Opus (melhor OCR)

Recursos Relacionados


Comece Agora: Crie sua primeira tarefa multimodal em Dashboard > New Task!