Processamento Multimodal
Vá além do texto! Use modelos de IA com capacidades de visão e processamento multimodal para analisar imagens, extrair informações de PDFs, transcrever áudio e muito mais.
Visão Geral
O que é Processamento Multimodal?
Multimodal significa que os modelos de IA podem processar e entender diferentes tipos de mídia:
- 📷 Imagens - Análise visual, OCR, detecção de objetos
- 📄 PDFs - Extração de texto, análise de documentos
- 🎥 Vídeos - Análise de frames, transcrição
- 🎵 Áudio - Transcrição, análise de sentimento
- 📊 Gráficos - Interpretação de dados visuais
Modelos com Suporte Multimodal
| Modelo | Imagem | Vídeo | Áudio | Contexto | |
|---|---|---|---|---|---|
| GPT-4 Turbo | ✅ | ✅ | ❌ | ❌ | 128k |
| GPT-4o | ✅ | ✅ | ✅ | ✅ | 128k |
| Claude 3 Opus | ✅ | ✅ | ❌ | ❌ | 200k |
| Claude 3 Sonnet | ✅ | ✅ | ❌ | ❌ | 200k |
| Claude 3 Haiku | ✅ | ✅ | ❌ | ❌ | 200k |
| Gemini 2.5 Pro | ✅ | ✅ | ✅ | ✅ | 2M |
| Gemini 2.0 Flash | ✅ | ✅ | ✅ | ✅ | 1M |
Processamento de Imagens
Upload de Imagens
Via Dashboard
- Crie ou edite uma tarefa
- Na seção "Attachments", clique em "Upload Image"
- Selecione a imagem (PNG, JPG, WebP, GIF)
- Referencie no prompt usando
{{image_1}},{{image_2}}, etc.
Via API
POST /api/tasks
{
"name": "Análise de Imagem",
"schedule": "0 9 * * *",
"model": "openai/gpt-4-turbo",
"prompt": "Analise esta imagem e descreva o que você vê: {{image_1}}",
"attachments": [
{
"type": "image",
"url": "https://example.com/image.jpg"
}
]
}Casos de Uso - Imagens
1. Análise de Produtos E-commerce
{
"task_name": "Gerar Descrição de Produto",
"schedule": "manual",
"model": "anthropic/claude-3-sonnet",
"prompt": "Analise esta foto do produto e gere:\n\n1. Descrição detalhada (100-150 palavras)\n2. 5 características principais\n3. 3 benefícios para o cliente\n4. Palavras-chave SEO (10 palavras)\n5. Categoria sugerida\n\nImagem: {{image_1}}",
"attachments": [
{
"type": "image",
"variable": "image_1",
"source": "upload"
}
],
"temperature": 0.7
}Output Esperado:
Descrição: Esta elegante mesa de jantar em madeira maciça...
Características:
- Madeira de carvalho natural
- Capacidade para 6 pessoas
- Acabamento em verniz premium
- Pés torneados artesanalmente
- Dimensões: 180cm x 90cm
Benefícios:
- Durabilidade superior por gerações
- Valoriza o ambiente com elegância atemporal
- Fácil manutenção e limpeza
SEO: mesa jantar madeira, mesa carvalho 6 lugares...
Categoria: Móveis > Sala de Jantar > Mesas
2. Moderação de Conteúdo
{
"task_name": "Moderar Upload de Imagens",
"schedule": "*/5 * * * *",
"model": "google/gemini-2.0-flash",
"prompt": "Analise esta imagem e classifique:\n\n{{image_1}}\n\nCritérios:\n- Conteúdo adulto: Sim/Não\n- Violência: Sim/Não\n- Spam: Sim/Não\n- Qualidade (1-10):\n- Aprovado: Sim/Não\n\nRetorne apenas JSON:\n```json\n{\n \"adult\": false,\n \"violence\": false,\n \"spam\": false,\n \"quality\": 8,\n \"approved\": true,\n \"reason\": \"Imagem adequada\"\n}\n```",
"temperature": 0.1,
"notifications": {
"webhook": {
"url": "https://api.empresa.com/moderation/callback",
"on_success": true
}
}
}3. OCR e Extração de Texto
{
"task_name": "Extrair Texto de Nota Fiscal",
"model": "openai/gpt-4-turbo",
"prompt": "Extraia as seguintes informações desta nota fiscal:\n\n{{image_1}}\n\nRetorne JSON com:\n- numero_nota\n- data_emissao\n- cnpj_emissor\n- razao_social\n- valor_total\n- itens (array com descricao, quantidade, valor_unitario)\n\n```json\n{\n \"numero_nota\": \"...\",\n ...\n}\n```",
"temperature": 0.0
}4. Análise de Screenshots
{
"task_name": "Revisar Design UI",
"model": "anthropic/claude-3-opus",
"prompt": "Analise este screenshot de interface:\n\n{{image_1}}\n\nForneça feedback sobre:\n\n1. **Usabilidade**\n - Hierarquia visual\n - Clareza de CTAs\n - Consistência de espaçamento\n\n2. **Acessibilidade**\n - Contraste de cores\n - Tamanho de fontes\n - Affordances\n\n3. **Design Visual**\n - Alinhamento\n - Paleta de cores\n - Tipografia\n\n4. **Sugestões de Melhoria** (top 5)\n\n5. **Score geral** (0-10)",
"temperature": 0.4
}5. Comparação de Imagens
{
"task_name": "Comparar Antes/Depois",
"model": "google/gemini-2.5-pro",
"prompt": "Compare estas duas imagens:\n\nAntes: {{image_1}}\nDepois: {{image_2}}\n\nIdentifique:\n1. Diferenças principais\n2. Melhorias observadas\n3. Aspectos negativos (se houver)\n4. Score de melhoria (0-100%)\n5. Recomendações adicionais",
"attachments": [
{"type": "image", "variable": "image_1"},
{"type": "image", "variable": "image_2"}
]
}Processamento de PDFs
Upload de PDFs
{
"task_name": "Analisar Contrato",
"model": "google/gemini-2.5-pro", // Melhor para PDFs longos
"prompt": "Analise este contrato completo:\n\n{{pdf_1}}\n\nExtraia:\n\n1. **Partes envolvidas**\n2. **Objeto do contrato**\n3. **Valor total e condições de pagamento**\n4. **Prazo de vigência**\n5. **Cláusulas de rescisão**\n6. **Penalidades**\n7. **Riscos potenciais** (destaque em vermelho)\n8. **Pontos de atenção** para revisão jurídica\n\nFormato: Relatório executivo (2 páginas max)",
"attachments": [
{
"type": "pdf",
"variable": "pdf_1",
"url": "https://storage.empresa.com/contratos/2025/contrato-123.pdf"
}
],
"temperature": 0.2
}Casos de Uso - PDFs
1. Análise de Currículos
{
"task_name": "Triagem de Currículos",
"schedule": "*/30 * * * *",
"model": "anthropic/claude-3-sonnet",
"prompt": "Analise este currículo:\n\n{{pdf_1}}\n\nCargo: {{job_title}}\n\nRequisitos:\n{{job_requirements}}\n\nAvalie (0-10):\n- Match de experiência\n- Match de habilidades técnicas\n- Formação acadêmica\n- Clareza de comunicação\n- Progressão de carreira\n\nRetorne JSON:\n```json\n{\n \"name\": \"...\",\n \"email\": \"...\",\n \"phone\": \"...\",\n \"experience_years\": 5,\n \"scores\": {\n \"experience_match\": 8,\n \"technical_skills\": 9,\n \"education\": 7,\n \"communication\": 8,\n \"career_progression\": 8\n },\n \"total_score\": 8.0,\n \"recommendation\": \"Aprovar para entrevista\",\n \"highlights\": [...],\n \"concerns\": [...]\n}\n```",
"temperature": 0.2
}2. Extração de Dados Financeiros
{
"task_name": "Processar Demonstrativo Financeiro",
"model": "openai/gpt-4-turbo",
"prompt": "Extraia os dados deste demonstrativo financeiro:\n\n{{pdf_1}}\n\nGere JSON estruturado com:\n- Receita total\n- Custos operacionais\n- Lucro bruto\n- Lucro líquido\n- EBITDA\n- Margem de lucro\n- Principais destaques\n- Alertas (variações >20%)",
"temperature": 0.0
}3. Resumo de Relatórios
{
"task_name": "Resumir Relatório Executivo",
"model": "google/gemini-2.5-pro",
"prompt": "Resuma este relatório de 50 páginas:\n\n{{pdf_1}}\n\nCrie um resumo executivo de 1 página com:\n\n## Executive Summary\n- Contexto (2-3 linhas)\n- Principais descobertas (bullet points)\n- Recomendações (top 3)\n- Próximos passos\n\n## Key Metrics\n- Tabela com métricas principais\n\n## Risk Assessment\n- Riscos identificados (High/Medium/Low)\n\n## Action Items\n- Lista priorizada de ações",
"temperature": 0.4
}4. Compliance e Regulamentação
{
"task_name": "Verificar Compliance LGPD",
"model": "anthropic/claude-3-opus",
"prompt": "Analise esta política de privacidade:\n\n{{pdf_1}}\n\nVerifique conformidade com LGPD:\n\n✅ Checklist:\n- [ ] Base legal para tratamento de dados\n- [ ] Finalidades específicas\n- [ ] Direitos dos titulares listados\n- [ ] DPO identificado\n- [ ] Prazo de retenção definido\n- [ ] Compartilhamento com terceiros descrito\n- [ ] Medidas de segurança explicadas\n- [ ] Canal de comunicação disponível\n\nScore de compliance: __/100\n\nNão conformidades críticas:\n1. ...\n2. ...\n\nRecomendações:\n1. ...\n2. ...",
"temperature": 0.2
}Processamento de Vídeo
Modelos Recomendados
- Gemini 2.5 Pro - Melhor qualidade, análise profunda
- Gemini 2.0 Flash - Velocidade, custo-benefício
- GPT-4o - Boa alternativa
Upload de Vídeos
{
"task_name": "Analisar Vídeo Marketing",
"model": "google/gemini-2.5-pro",
"prompt": "Analise este vídeo de marketing:\n\n{{video_1}}\n\nForneça:\n\n1. **Resumo do conteúdo** (1 parágrafo)\n2. **Transcrição completa** (timestamps)\n3. **Elementos visuais principais** (por cena)\n4. **Análise de qualidade**\n - Iluminação\n - Áudio\n - Edição\n - Ritmo\n5. **Sentimento transmitido**\n6. **CTA identificados**\n7. **Score de engajamento** (0-10)\n8. **Sugestões de melhoria**",
"attachments": [
{
"type": "video",
"variable": "video_1",
"url": "https://storage.empresa.com/videos/marketing-campaign-q1.mp4",
"max_duration": 300 // Máximo 5 minutos
}
],
"temperature": 0.5
}Casos de Uso - Vídeo
1. Moderação de Conteúdo
{
"task_name": "Moderar Upload de Vídeos",
"model": "google/gemini-2.0-flash",
"prompt": "Analise este vídeo enviado por usuário:\n\n{{video_1}}\n\nVerifique:\n- Conteúdo inapropriado\n- Violência\n- Spam\n- Qualidade do vídeo\n- Duração adequada\n\nRetorne JSON:\n```json\n{\n \"approved\": true/false,\n \"content_flags\": [],\n \"quality_score\": 8,\n \"duration_seconds\": 45,\n \"reason\": \"...\"\n}\n```",
"temperature": 0.0,
"notifications": {
"webhook": "https://api.empresa.com/moderation/video-callback"
}
}2. Geração de Legendas
{
"task_name": "Gerar Legendas Automáticas",
"model": "google/gemini-2.5-pro",
"prompt": "Transcreva este vídeo e gere arquivo SRT de legendas:\n\n{{video_1}}\n\nFormato SRT com timestamps precisos:\n\n1\n00:00:00,000 --> 00:00:03,500\nTexto da primeira legenda\n\n2\n00:00:03,500 --> 00:00:07,200\nTexto da segunda legenda\n\n...",
"temperature": 0.1
}3. Análise de Tutoriais
{
"task_name": "Analisar Tutorial Técnico",
"model": "google/gemini-2.5-pro",
"prompt": "Analise este vídeo tutorial:\n\n{{video_1}}\n\nCrie:\n\n1. **Índice com timestamps**\n - 00:00 - Introdução\n - 01:30 - Conceitos básicos\n - ...\n\n2. **Passo a passo escrito**\n - Extraia cada etapa do tutorial\n - Adicione screenshots dos momentos-chave\n\n3. **Requisitos técnicos** mencionados\n\n4. **Dificuldade** (Iniciante/Intermediário/Avançado)\n\n5. **Tempo estimado** para reproduzir\n\n6. **Recursos necessários**",
"temperature": 0.3
}Processamento de Áudio
Upload de Áudio
{
"task_name": "Transcrever Reunião",
"model": "openai/gpt-4o",
"prompt": "Transcreva esta reunião e forneça:\n\n{{audio_1}}\n\n1. **Transcrição completa** com identificação de speakers\n2. **Resumo executivo** (5 bullet points)\n3. **Action items** identificados\n4. **Decisões tomadas**\n5. **Próximos passos**\n6. **Participantes** mencionados",
"attachments": [
{
"type": "audio",
"variable": "audio_1",
"url": "https://storage.empresa.com/recordings/meeting-2025-01-17.mp3"
}
],
"temperature": 0.2
}Casos de Uso - Áudio
1. Análise de Chamadas de Suporte
{
"task_name": "Analisar Chamada de Suporte",
"model": "google/gemini-2.5-pro",
"prompt": "Analise esta chamada de atendimento:\n\n{{audio_1}}\n\nForneça:\n\n1. **Transcrição**\n - Cliente: ...\n - Atendente: ...\n - Cliente: ...\n\n2. **Análise de Sentimento**\n - Cliente: Satisfeito/Neutro/Insatisfeito\n - Atendente: Profissional/Empático/Apressado\n\n3. **Problema relatado**\n\n4. **Solução fornecida**\n\n5. **Qualidade do atendimento** (0-10)\n - Empatia\n - Clareza\n - Eficiência\n - Profissionalismo\n\n6. **Oportunidades de melhoria**\n\n7. **Follow-up necessário?** Sim/Não",
"temperature": 0.3
}2. Análise de Vendas
{
"task_name": "Analisar Pitch de Vendas",
"model": "anthropic/claude-3-opus",
"prompt": "Analise esta ligação de vendas:\n\n{{audio_1}}\n\nAvalie:\n\n1. **Estrutura da chamada**\n - Abertura eficaz?\n - Descoberta de necessidades?\n - Apresentação de valor?\n - Tratamento de objeções?\n - Fechamento?\n\n2. **Técnicas utilizadas**\n - Rapport building\n - SPIN selling\n - Storytelling\n - Social proof\n\n3. **Objeções levantadas** e como foram tratadas\n\n4. **Resultado** (Venda fechada / Follow-up / Perdido)\n\n5. **Score de performance** (0-10)\n\n6. **Coaching points** (top 3)\n\n7. **Exemplos a replicar**",
"temperature": 0.4
}3. Geração de Atas de Reunião
{
"task_name": "Gerar Ata de Reunião",
"schedule": "manual",
"model": "openai/gpt-4o",
"prompt": "A partir desta gravação de reunião:\n\n{{audio_1}}\n\nGere uma ata formal:\n\n---\n**ATA DE REUNIÃO**\n\n**Data:** {{current_date}}\n**Participantes:**\n- Nome 1 (Cargo)\n- Nome 2 (Cargo)\n\n**Pauta:**\n1. Item 1\n2. Item 2\n\n**Discussões:**\n- Tópico 1: Resumo da discussão...\n- Tópico 2: Resumo da discussão...\n\n**Decisões:**\n1. Decisão tomada...\n2. Decisão tomada...\n\n**Action Items:**\n- [ ] Tarefa 1 - Responsável: Nome - Prazo: Data\n- [ ] Tarefa 2 - Responsável: Nome - Prazo: Data\n\n**Próxima Reunião:** Data e horário\n\n---",
"temperature": 0.3,
"notifications": {
"email": {
"enabled": true,
"recipients": ["{{meeting_participants}}"],
"subject": "Ata da Reunião - {{meeting_title}}"
}
}
}Combinando Múltiplas Mídias
Análise Multi-formato
{
"task_name": "Análise Completa de Campanha",
"model": "google/gemini-2.5-pro",
"prompt": "Analise todos os assets desta campanha de marketing:\n\n**Vídeo:** {{video_1}}\n**Imagens:** {{image_1}}, {{image_2}}, {{image_3}}\n**Briefing PDF:** {{pdf_1}}\n**Áudio do Jingle:** {{audio_1}}\n\nForneça análise completa:\n\n## 1. Consistência de Marca\n- Cores\n- Tipografia\n- Tom de voz\n- Mensagem principal\n\n## 2. Alinhamento com Briefing\n- Objetivos atingidos?\n- Target audience adequado?\n- KPIs mensuráveis?\n\n## 3. Qualidade Técnica\n- Vídeo (resolução, edição, áudio)\n- Imagens (qualidade, composição)\n- Jingle (produção, memorabilidade)\n\n## 4. Score Geral (0-10)\n- Criatividade\n- Execução\n- Alinhamento estratégico\n- Potencial de conversão\n\n## 5. Recomendações\n- O que manter\n- O que ajustar\n- Próximos passos",
"attachments": [
{"type": "video", "variable": "video_1"},
{"type": "image", "variable": "image_1"},
{"type": "image", "variable": "image_2"},
{"type": "image", "variable": "image_3"},
{"type": "pdf", "variable": "pdf_1"},
{"type": "audio", "variable": "audio_1"}
],
"temperature": 0.5
}Limites e Otimização
Tamanhos Máximos por Tipo
| Tipo | Free | Pro | Business |
|---|---|---|---|
| Imagem | 5MB | 20MB | 50MB |
| 10MB / 50 páginas | 50MB / 500 páginas | 200MB / Ilimitado | |
| Vídeo | - | 100MB / 5min | 500MB / 30min |
| Áudio | - | 50MB / 30min | 200MB / 2h |
Formatos Suportados
Imagens
- PNG, JPG, JPEG, WebP, GIF
- Resolução máxima: 4096x4096px
PDFs
- Versão 1.4 ou superior
- OCR automático para PDFs escaneados
Vídeos
- MP4, MOV, AVI, WebM
- Codecs: H.264, H.265, VP9
Áudio
- MP3, WAV, M4A, OGG
- Taxa de amostragem: 16kHz - 48kHz
Otimização de Custos
// Imagens
- Reduza resolução para max 1920x1080 se não precisar de detalhes
- Use compressão (70-80% quality é suficiente)
- Considere converter para WebP
// PDFs
- Extraia apenas páginas relevantes
- Use OCR apenas se necessário
- Considere Gemini 2.5 Pro para PDFs longos (contexto maior)
// Vídeos
- Reduza FPS para 15-24 se análise não exigir mais
- Corte apenas o trecho relevante
- Reduza resolução para 720p se possível
// Áudio
- Mono channel é suficiente para transcrições
- 16kHz sample rate para voz humana
- Remova silêncios longos antes do uploadSegurança e Privacidade
Armazenamento
- Criptografia em repouso (AES-256)
- Criptografia em trânsito (TLS 1.3)
- Retenção: 30 dias (configurável)
- Auto-delete após processamento (opcional)
Dados Sensíveis
{
"privacy": {
"auto_delete_after_processing": true,
"encrypt_storage": true,
"do_not_train": true, // Não usar para treinar modelos
"anonymize_pii": true // Remover PII do output
}
}Compliance
- GDPR compliant
- LGPD compliant
- HIPAA (plano Enterprise)
- SOC 2 Type II certified
Troubleshooting
Erro: "File too large"
- Verifique limites do seu plano
- Comprima o arquivo
- Para vídeos, reduza duração/resolução
Erro: "Format not supported"
- Converta para formato suportado
- Use ffmpeg para conversão:
# Vídeo para MP4
ffmpeg -i input.avi -c:v libx264 output.mp4
# Áudio para MP3
ffmpeg -i input.wav -codec:a libmp3lame output.mp3Qualidade ruim no OCR
- Aumente resolução da imagem (min 300 DPI)
- Melhore contraste
- Use GPT-4 Turbo ou Claude 3 Opus (melhor OCR)
Recursos Relacionados
- Catálogo de Modelos - Veja capacidades de cada modelo
- Agendamento - Automatize processamento multimodal
- API Reference - Upload programático de arquivos
Comece Agora: Crie sua primeira tarefa multimodal em Dashboard > New Task!