Processamento Multimodal

Envie imagens, PDFs, vídeos e áudio para modelos de IA com capacidades de visão e processamento multimodal.

17/01/2025

Nesta Página

Processamento Multimodal

Vá além do texto! Use modelos de IA com capacidades de visão e processamento multimodal para analisar imagens, extrair informações de PDFs, transcrever áudio e muito mais.

Visão Geral

O que é Processamento Multimodal?

Multimodal significa que os modelos de IA podem processar e entender diferentes tipos de mídia:

📷 Imagens - Análise visual, OCR, detecção de objetos
📄 PDFs - Extração de texto, análise de documentos
🎥 Vídeos - Análise de frames, transcrição
🎵 Áudio - Transcrição, análise de sentimento
📊 Gráficos - Interpretação de dados visuais

Modelos com Suporte Multimodal

Modelo	Imagem	PDF	Vídeo	Áudio	Contexto
GPT-4 Turbo	✅	✅	❌	❌	128k
GPT-4o	✅	✅	✅	✅	128k
Claude 3 Opus	✅	✅	❌	❌	200k
Claude 3 Sonnet	✅	✅	❌	❌	200k
Claude 3 Haiku	✅	✅	❌	❌	200k
Gemini 2.5 Pro	✅	✅	✅	✅	2M
Gemini 2.0 Flash	✅	✅	✅	✅	1M

Processamento de Imagens

Upload de Imagens

Via Dashboard

Crie ou edite uma tarefa
Na seção "Attachments", clique em "Upload Image"
Selecione a imagem (PNG, JPG, WebP, GIF)
Referencie no prompt usando {{image_1}}, {{image_2}}, etc.

Via API

POST /api/tasks
{
  "name": "Análise de Imagem",
  "schedule": "0 9 * * *",
  "model": "openai/gpt-4-turbo",
  "prompt": "Analise esta imagem e descreva o que você vê: {{image_1}}",
  "attachments": [
    {
      "type": "image",
      "url": "https://example.com/image.jpg"
    }
  ]
}

Casos de Uso - Imagens

1. Análise de Produtos E-commerce

{
  "task_name": "Gerar Descrição de Produto",
  "schedule": "manual",
  "model": "anthropic/claude-3-sonnet",
  "prompt": "Analise esta foto do produto e gere:\n\n1. Descrição detalhada (100-150 palavras)\n2. 5 características principais\n3. 3 benefícios para o cliente\n4. Palavras-chave SEO (10 palavras)\n5. Categoria sugerida\n\nImagem: {{image_1}}",
  "attachments": [
    {
      "type": "image",
      "variable": "image_1",
      "source": "upload"
    }
  ],
  "temperature": 0.7
}

Output Esperado:

Descrição: Esta elegante mesa de jantar em madeira maciça...

Características:
- Madeira de carvalho natural
- Capacidade para 6 pessoas
- Acabamento em verniz premium
- Pés torneados artesanalmente
- Dimensões: 180cm x 90cm

Benefícios:
- Durabilidade superior por gerações
- Valoriza o ambiente com elegância atemporal
- Fácil manutenção e limpeza

SEO: mesa jantar madeira, mesa carvalho 6 lugares...

Categoria: Móveis > Sala de Jantar > Mesas

2. Moderação de Conteúdo

{
  "task_name": "Moderar Upload de Imagens",
  "schedule": "*/5 * * * *",
  "model": "google/gemini-2.0-flash",
  "prompt": "Analise esta imagem e classifique:\n\n{{image_1}}\n\nCritérios:\n- Conteúdo adulto: Sim/Não\n- Violência: Sim/Não\n- Spam: Sim/Não\n- Qualidade (1-10):\n- Aprovado: Sim/Não\n\nRetorne apenas JSON:\n```json\n{\n  \"adult\": false,\n  \"violence\": false,\n  \"spam\": false,\n  \"quality\": 8,\n  \"approved\": true,\n  \"reason\": \"Imagem adequada\"\n}\n```",
  "temperature": 0.1,
  "notifications": {
    "webhook": {
      "url": "https://api.empresa.com/moderation/callback",
      "on_success": true
    }
  }
}

3. OCR e Extração de Texto

{
  "task_name": "Extrair Texto de Nota Fiscal",
  "model": "openai/gpt-4-turbo",
  "prompt": "Extraia as seguintes informações desta nota fiscal:\n\n{{image_1}}\n\nRetorne JSON com:\n- numero_nota\n- data_emissao\n- cnpj_emissor\n- razao_social\n- valor_total\n- itens (array com descricao, quantidade, valor_unitario)\n\n```json\n{\n  \"numero_nota\": \"...\",\n  ...\n}\n```",
  "temperature": 0.0
}

4. Análise de Screenshots

{
  "task_name": "Revisar Design UI",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise este screenshot de interface:\n\n{{image_1}}\n\nForneça feedback sobre:\n\n1. **Usabilidade**\n   - Hierarquia visual\n   - Clareza de CTAs\n   - Consistência de espaçamento\n\n2. **Acessibilidade**\n   - Contraste de cores\n   - Tamanho de fontes\n   - Affordances\n\n3. **Design Visual**\n   - Alinhamento\n   - Paleta de cores\n   - Tipografia\n\n4. **Sugestões de Melhoria** (top 5)\n\n5. **Score geral** (0-10)",
  "temperature": 0.4
}

5. Comparação de Imagens

{
  "task_name": "Comparar Antes/Depois",
  "model": "google/gemini-2.5-pro",
  "prompt": "Compare estas duas imagens:\n\nAntes: {{image_1}}\nDepois: {{image_2}}\n\nIdentifique:\n1. Diferenças principais\n2. Melhorias observadas\n3. Aspectos negativos (se houver)\n4. Score de melhoria (0-100%)\n5. Recomendações adicionais",
  "attachments": [
    {"type": "image", "variable": "image_1"},
    {"type": "image", "variable": "image_2"}
  ]
}

Processamento de PDFs

Upload de PDFs

{
  "task_name": "Analisar Contrato",
  "model": "google/gemini-2.5-pro",  // Melhor para PDFs longos
  "prompt": "Analise este contrato completo:\n\n{{pdf_1}}\n\nExtraia:\n\n1. **Partes envolvidas**\n2. **Objeto do contrato**\n3. **Valor total e condições de pagamento**\n4. **Prazo de vigência**\n5. **Cláusulas de rescisão**\n6. **Penalidades**\n7. **Riscos potenciais** (destaque em vermelho)\n8. **Pontos de atenção** para revisão jurídica\n\nFormato: Relatório executivo (2 páginas max)",
  "attachments": [
    {
      "type": "pdf",
      "variable": "pdf_1",
      "url": "https://storage.empresa.com/contratos/2025/contrato-123.pdf"
    }
  ],
  "temperature": 0.2
}

Casos de Uso - PDFs

1. Análise de Currículos

{
  "task_name": "Triagem de Currículos",
  "schedule": "*/30 * * * *",
  "model": "anthropic/claude-3-sonnet",
  "prompt": "Analise este currículo:\n\n{{pdf_1}}\n\nCargo: {{job_title}}\n\nRequisitos:\n{{job_requirements}}\n\nAvalie (0-10):\n- Match de experiência\n- Match de habilidades técnicas\n- Formação acadêmica\n- Clareza de comunicação\n- Progressão de carreira\n\nRetorne JSON:\n```json\n{\n  \"name\": \"...\",\n  \"email\": \"...\",\n  \"phone\": \"...\",\n  \"experience_years\": 5,\n  \"scores\": {\n    \"experience_match\": 8,\n    \"technical_skills\": 9,\n    \"education\": 7,\n    \"communication\": 8,\n    \"career_progression\": 8\n  },\n  \"total_score\": 8.0,\n  \"recommendation\": \"Aprovar para entrevista\",\n  \"highlights\": [...],\n  \"concerns\": [...]\n}\n```",
  "temperature": 0.2
}

2. Extração de Dados Financeiros

{
  "task_name": "Processar Demonstrativo Financeiro",
  "model": "openai/gpt-4-turbo",
  "prompt": "Extraia os dados deste demonstrativo financeiro:\n\n{{pdf_1}}\n\nGere JSON estruturado com:\n- Receita total\n- Custos operacionais\n- Lucro bruto\n- Lucro líquido\n- EBITDA\n- Margem de lucro\n- Principais destaques\n- Alertas (variações >20%)",
  "temperature": 0.0
}

3. Resumo de Relatórios

{
  "task_name": "Resumir Relatório Executivo",
  "model": "google/gemini-2.5-pro",
  "prompt": "Resuma este relatório de 50 páginas:\n\n{{pdf_1}}\n\nCrie um resumo executivo de 1 página com:\n\n## Executive Summary\n- Contexto (2-3 linhas)\n- Principais descobertas (bullet points)\n- Recomendações (top 3)\n- Próximos passos\n\n## Key Metrics\n- Tabela com métricas principais\n\n## Risk Assessment\n- Riscos identificados (High/Medium/Low)\n\n## Action Items\n- Lista priorizada de ações",
  "temperature": 0.4
}

4. Compliance e Regulamentação

{
  "task_name": "Verificar Compliance LGPD",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise esta política de privacidade:\n\n{{pdf_1}}\n\nVerifique conformidade com LGPD:\n\n✅ Checklist:\n- [ ] Base legal para tratamento de dados\n- [ ] Finalidades específicas\n- [ ] Direitos dos titulares listados\n- [ ] DPO identificado\n- [ ] Prazo de retenção definido\n- [ ] Compartilhamento com terceiros descrito\n- [ ] Medidas de segurança explicadas\n- [ ] Canal de comunicação disponível\n\nScore de compliance: __/100\n\nNão conformidades críticas:\n1. ...\n2. ...\n\nRecomendações:\n1. ...\n2. ...",
  "temperature": 0.2
}

Processamento de Vídeo

Modelos Recomendados

Gemini 2.5 Pro - Melhor qualidade, análise profunda
Gemini 2.0 Flash - Velocidade, custo-benefício
GPT-4o - Boa alternativa

Upload de Vídeos

{
  "task_name": "Analisar Vídeo Marketing",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise este vídeo de marketing:\n\n{{video_1}}\n\nForneça:\n\n1. **Resumo do conteúdo** (1 parágrafo)\n2. **Transcrição completa** (timestamps)\n3. **Elementos visuais principais** (por cena)\n4. **Análise de qualidade**\n   - Iluminação\n   - Áudio\n   - Edição\n   - Ritmo\n5. **Sentimento transmitido**\n6. **CTA identificados**\n7. **Score de engajamento** (0-10)\n8. **Sugestões de melhoria**",
  "attachments": [
    {
      "type": "video",
      "variable": "video_1",
      "url": "https://storage.empresa.com/videos/marketing-campaign-q1.mp4",
      "max_duration": 300  // Máximo 5 minutos
    }
  ],
  "temperature": 0.5
}

Casos de Uso - Vídeo

1. Moderação de Conteúdo

{
  "task_name": "Moderar Upload de Vídeos",
  "model": "google/gemini-2.0-flash",
  "prompt": "Analise este vídeo enviado por usuário:\n\n{{video_1}}\n\nVerifique:\n- Conteúdo inapropriado\n- Violência\n- Spam\n- Qualidade do vídeo\n- Duração adequada\n\nRetorne JSON:\n```json\n{\n  \"approved\": true/false,\n  \"content_flags\": [],\n  \"quality_score\": 8,\n  \"duration_seconds\": 45,\n  \"reason\": \"...\"\n}\n```",
  "temperature": 0.0,
  "notifications": {
    "webhook": "https://api.empresa.com/moderation/video-callback"
  }
}

2. Geração de Legendas

{
  "task_name": "Gerar Legendas Automáticas",
  "model": "google/gemini-2.5-pro",
  "prompt": "Transcreva este vídeo e gere arquivo SRT de legendas:\n\n{{video_1}}\n\nFormato SRT com timestamps precisos:\n\n1\n00:00:00,000 --> 00:00:03,500\nTexto da primeira legenda\n\n2\n00:00:03,500 --> 00:00:07,200\nTexto da segunda legenda\n\n...",
  "temperature": 0.1
}

3. Análise de Tutoriais

{
  "task_name": "Analisar Tutorial Técnico",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise este vídeo tutorial:\n\n{{video_1}}\n\nCrie:\n\n1. **Índice com timestamps**\n   - 00:00 - Introdução\n   - 01:30 - Conceitos básicos\n   - ...\n\n2. **Passo a passo escrito**\n   - Extraia cada etapa do tutorial\n   - Adicione screenshots dos momentos-chave\n\n3. **Requisitos técnicos** mencionados\n\n4. **Dificuldade** (Iniciante/Intermediário/Avançado)\n\n5. **Tempo estimado** para reproduzir\n\n6. **Recursos necessários**",
  "temperature": 0.3
}

Processamento de Áudio

Upload de Áudio

{
  "task_name": "Transcrever Reunião",
  "model": "openai/gpt-4o",
  "prompt": "Transcreva esta reunião e forneça:\n\n{{audio_1}}\n\n1. **Transcrição completa** com identificação de speakers\n2. **Resumo executivo** (5 bullet points)\n3. **Action items** identificados\n4. **Decisões tomadas**\n5. **Próximos passos**\n6. **Participantes** mencionados",
  "attachments": [
    {
      "type": "audio",
      "variable": "audio_1",
      "url": "https://storage.empresa.com/recordings/meeting-2025-01-17.mp3"
    }
  ],
  "temperature": 0.2
}

Casos de Uso - Áudio

1. Análise de Chamadas de Suporte

{
  "task_name": "Analisar Chamada de Suporte",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise esta chamada de atendimento:\n\n{{audio_1}}\n\nForneça:\n\n1. **Transcrição**\n   - Cliente: ...\n   - Atendente: ...\n   - Cliente: ...\n\n2. **Análise de Sentimento**\n   - Cliente: Satisfeito/Neutro/Insatisfeito\n   - Atendente: Profissional/Empático/Apressado\n\n3. **Problema relatado**\n\n4. **Solução fornecida**\n\n5. **Qualidade do atendimento** (0-10)\n   - Empatia\n   - Clareza\n   - Eficiência\n   - Profissionalismo\n\n6. **Oportunidades de melhoria**\n\n7. **Follow-up necessário?** Sim/Não",
  "temperature": 0.3
}

2. Análise de Vendas

{
  "task_name": "Analisar Pitch de Vendas",
  "model": "anthropic/claude-3-opus",
  "prompt": "Analise esta ligação de vendas:\n\n{{audio_1}}\n\nAvalie:\n\n1. **Estrutura da chamada**\n   - Abertura eficaz?\n   - Descoberta de necessidades?\n   - Apresentação de valor?\n   - Tratamento de objeções?\n   - Fechamento?\n\n2. **Técnicas utilizadas**\n   - Rapport building\n   - SPIN selling\n   - Storytelling\n   - Social proof\n\n3. **Objeções levantadas** e como foram tratadas\n\n4. **Resultado** (Venda fechada / Follow-up / Perdido)\n\n5. **Score de performance** (0-10)\n\n6. **Coaching points** (top 3)\n\n7. **Exemplos a replicar**",
  "temperature": 0.4
}

3. Geração de Atas de Reunião

{
  "task_name": "Gerar Ata de Reunião",
  "schedule": "manual",
  "model": "openai/gpt-4o",
  "prompt": "A partir desta gravação de reunião:\n\n{{audio_1}}\n\nGere uma ata formal:\n\n---\n**ATA DE REUNIÃO**\n\n**Data:** {{current_date}}\n**Participantes:**\n- Nome 1 (Cargo)\n- Nome 2 (Cargo)\n\n**Pauta:**\n1. Item 1\n2. Item 2\n\n**Discussões:**\n- Tópico 1: Resumo da discussão...\n- Tópico 2: Resumo da discussão...\n\n**Decisões:**\n1. Decisão tomada...\n2. Decisão tomada...\n\n**Action Items:**\n- [ ] Tarefa 1 - Responsável: Nome - Prazo: Data\n- [ ] Tarefa 2 - Responsável: Nome - Prazo: Data\n\n**Próxima Reunião:** Data e horário\n\n---",
  "temperature": 0.3,
  "notifications": {
    "email": {
      "enabled": true,
      "recipients": ["{{meeting_participants}}"],
      "subject": "Ata da Reunião - {{meeting_title}}"
    }
  }
}

Combinando Múltiplas Mídias

Análise Multi-formato

{
  "task_name": "Análise Completa de Campanha",
  "model": "google/gemini-2.5-pro",
  "prompt": "Analise todos os assets desta campanha de marketing:\n\n**Vídeo:** {{video_1}}\n**Imagens:** {{image_1}}, {{image_2}}, {{image_3}}\n**Briefing PDF:** {{pdf_1}}\n**Áudio do Jingle:** {{audio_1}}\n\nForneça análise completa:\n\n## 1. Consistência de Marca\n- Cores\n- Tipografia\n- Tom de voz\n- Mensagem principal\n\n## 2. Alinhamento com Briefing\n- Objetivos atingidos?\n- Target audience adequado?\n- KPIs mensuráveis?\n\n## 3. Qualidade Técnica\n- Vídeo (resolução, edição, áudio)\n- Imagens (qualidade, composição)\n- Jingle (produção, memorabilidade)\n\n## 4. Score Geral (0-10)\n- Criatividade\n- Execução\n- Alinhamento estratégico\n- Potencial de conversão\n\n## 5. Recomendações\n- O que manter\n- O que ajustar\n- Próximos passos",
  "attachments": [
    {"type": "video", "variable": "video_1"},
    {"type": "image", "variable": "image_1"},
    {"type": "image", "variable": "image_2"},
    {"type": "image", "variable": "image_3"},
    {"type": "pdf", "variable": "pdf_1"},
    {"type": "audio", "variable": "audio_1"}
  ],
  "temperature": 0.5
}

Limites e Otimização

Tamanhos Máximos por Tipo

Tipo	Free	Pro	Business
Imagem	5MB	20MB	50MB
PDF	10MB / 50 páginas	50MB / 500 páginas	200MB / Ilimitado
Vídeo	-	100MB / 5min	500MB / 30min
Áudio	-	50MB / 30min	200MB / 2h

Formatos Suportados

Imagens

PNG, JPG, JPEG, WebP, GIF
Resolução máxima: 4096x4096px

PDFs

Versão 1.4 ou superior
OCR automático para PDFs escaneados

Vídeos

MP4, MOV, AVI, WebM
Codecs: H.264, H.265, VP9

Áudio

MP3, WAV, M4A, OGG
Taxa de amostragem: 16kHz - 48kHz

Otimização de Custos

// Imagens
- Reduza resolução para max 1920x1080 se não precisar de detalhes
- Use compressão (70-80% quality é suficiente)
- Considere converter para WebP
 
// PDFs
- Extraia apenas páginas relevantes
- Use OCR apenas se necessário
- Considere Gemini 2.5 Pro para PDFs longos (contexto maior)
 
// Vídeos
- Reduza FPS para 15-24 se análise não exigir mais
- Corte apenas o trecho relevante
- Reduza resolução para 720p se possível
 
// Áudio
- Mono channel é suficiente para transcrições
- 16kHz sample rate para voz humana
- Remova silêncios longos antes do upload

Segurança e Privacidade

Armazenamento

Criptografia em repouso (AES-256)
Criptografia em trânsito (TLS 1.3)
Retenção: 30 dias (configurável)
Auto-delete após processamento (opcional)

Dados Sensíveis

{
  "privacy": {
    "auto_delete_after_processing": true,
    "encrypt_storage": true,
    "do_not_train": true,  // Não usar para treinar modelos
    "anonymize_pii": true  // Remover PII do output
  }
}

Compliance

GDPR compliant
LGPD compliant
HIPAA (plano Enterprise)
SOC 2 Type II certified

Troubleshooting

Erro: "File too large"

Verifique limites do seu plano
Comprima o arquivo
Para vídeos, reduza duração/resolução

Erro: "Format not supported"

Converta para formato suportado
Use ffmpeg para conversão:

# Vídeo para MP4
ffmpeg -i input.avi -c:v libx264 output.mp4
 
# Áudio para MP3
ffmpeg -i input.wav -codec:a libmp3lame output.mp3

Qualidade ruim no OCR

Aumente resolução da imagem (min 300 DPI)
Melhore contraste
Use GPT-4 Turbo ou Claude 3 Opus (melhor OCR)

Recursos Relacionados

Catálogo de Modelos - Veja capacidades de cada modelo
Agendamento - Automatize processamento multimodal
API Reference - Upload programático de arquivos

Comece Agora: Crie sua primeira tarefa multimodal em Dashboard > New Task!

Editar esta página no GitHub