Metodologia
A avaliação é baseada em mais de 1.000 questões privadas de múltipla escolha, extraídas de concursos públicos, simulados, exames universitários e bancos de questões licenciados. As perguntas cobrem temas centrais de diversas profissões e refletem os principais critérios de avaliação utilizados no Brasil.
Princípios do Benchmark
Para gerar resultados úteis e aplicáveis, nossa metodologia se ancora em três pilares:
- Utilidade: Criamos cenários e métricas a partir de casos reais de uso no Brasil.
- Inclusividade: Cobrimos diversas áreas (Jurídico, Medicina, Contabilidade, Engenharia, Língua Portuguesa, etc.) e níveis de dificuldade.
- Confiabilidade: Mantemos nossos conjuntos privados, com exemplos públicos apenas para fins de transparência.
Processo de Construção da Base de Dados
Coleta inicial: ~10.000 questões potenciais em várias disciplinas.
- Triagem e curadoria: Seleção segundo critério de representatividade nacional (legislação, protocolos médicos, normas técnicas).
- Filtragem quantitativa: Reduzimos a 10% do universo inicial (≈1.000 questões finais, próximo a 100 por categoria).
- Auditoria de qualidade: Revisão multidisciplinar e remoção de itens que não atendem aos padrões de clareza, precisão e especificidade cultural.
Proteção Contra Vazamento de Dados
- Todos os conjuntos principais permanecem privados, evitando contaminação dos modelos.
- Uso de infraestrutura com garantia de não-retenção de prompts.
- Exemplos públicos (quando houver) conterão itens similares, mas não idênticos, para preservar a integridade do benchmark.
Processo de Avaliação
- Formato: Zero-shot via API do fornecedor, sempre com as mesmas configurações.
- Pipeline de resposta:
- Envio da pergunta + opções de resposta.
- System Prompt padronizado para "indicar a alternativa correta".
- Extração automatizada da escolha do modelo com revisão humana em casos ambíguos ou falhas de parsing.
Configurações Técnicas
- Temperatura: 0
- Máximo de tokens de saída: Limite oficial de cada modelo
- Tratamento de erros: Até 10 tentativas automáticas em falhas de API; revisão manual de casos persistentes; exclusão de resultados comprometidos.
Determinação da nota de avaliação
A nota pública do Placar da IA é calculada da seguinte forma:
Todos os modelos são avaliados com o mesmo método, garantindo comparações justas e objetivas entre eles.
- Cada modelo responde a aproximadamente 100 questões por categoria
- A nota é o percentual de acertos convertido para escala de 0 a 10
- Exemplo: 85% de acertos = nota 8,5
- Nota máxima (10): Obtida quando o modelo acerta 100% das questões
Todos os modelos são avaliados com o mesmo método, garantindo comparações justas e objetivas entre eles.
Critérios de Inclusão de Modelos
Para refletir o panorama brasileiro e apoiar a escolha de soluções, consideramos:
Modelos e provedores são reavaliados periodicamente para manter o benchmark atualizado.
- Significância no setor: Adoção expressiva ou caso de uso relevante no Brasil.
- Desempenho competitivo: Resultados em linha com os melhores avaliados.
Modelos e provedores são reavaliados periodicamente para manter o benchmark atualizado.
Declaração de Independência
Nossas avaliações são 100% independentes e objetivas.
Não recebemos qualquer compensação de fornecedores para inclusão ou resultados favoráveis.
Não recebemos qualquer compensação de fornecedores para inclusão ou resultados favoráveis.