Metodologia

A avaliação é baseada em mais de 1.000 questões privadas de múltipla escolha, extraídas de concursos públicos, simulados, exames universitários e bancos de questões licenciados. As perguntas cobrem temas centrais de diversas profissões e refletem os principais critérios de avaliação utilizados no Brasil.

Princípios do Benchmark

Para gerar resultados úteis e aplicáveis, nossa metodologia se ancora em três pilares:
  • Utilidade: Criamos cenários e métricas a partir de casos reais de uso no Brasil.
  • Inclusividade: Cobrimos diversas áreas (Jurídico, Medicina, Contabilidade, Engenharia, Língua Portuguesa, etc.) e níveis de dificuldade.
  • Confiabilidade: Mantemos nossos conjuntos privados, com exemplos públicos apenas para fins de transparência.

Processo de Construção da Base de Dados

Coleta inicial: ~10.000 questões potenciais em várias disciplinas.
  1. Triagem e curadoria: Seleção segundo critério de representatividade nacional (legislação, protocolos médicos, normas técnicas).
  2. Filtragem quantitativa: Reduzimos a 10% do universo inicial (≈1.000 questões finais, próximo a 100 por categoria).
  3. Auditoria de qualidade: Revisão multidisciplinar e remoção de itens que não atendem aos padrões de clareza, precisão e especificidade cultural.

Proteção Contra Vazamento de Dados

  • Todos os conjuntos principais permanecem privados, evitando contaminação dos modelos.
  • Uso de infraestrutura com garantia de não-retenção de prompts.
  • Exemplos públicos (quando houver) conterão itens similares, mas não idênticos, para preservar a integridade do benchmark.

Processo de Avaliação

  • Formato: Zero-shot via API do fornecedor, sempre com as mesmas configurações.
  • Pipeline de resposta:
    1. Envio da pergunta + opções de resposta.
    2. System Prompt padronizado para "indicar a alternativa correta".
    3. Extração automatizada da escolha do modelo com revisão humana em casos ambíguos ou falhas de parsing.

Configurações Técnicas

  • Temperatura: 0
  • Máximo de tokens de saída: Limite oficial de cada modelo
  • Tratamento de erros: Até 10 tentativas automáticas em falhas de API; revisão manual de casos persistentes; exclusão de resultados comprometidos.

Determinação da nota de avaliação

A nota pública do Placar da IA é calculada da seguinte forma:
  • Cada modelo responde a aproximadamente 100 questões por categoria
  • A nota é o percentual de acertos convertido para escala de 0 a 10
  • Exemplo: 85% de acertos = nota 8,5
  • Nota máxima (10): Obtida quando o modelo acerta 100% das questões

Todos os modelos são avaliados com o mesmo método, garantindo comparações justas e objetivas entre eles.

Critérios de Inclusão de Modelos

Para refletir o panorama brasileiro e apoiar a escolha de soluções, consideramos:
  • Significância no setor: Adoção expressiva ou caso de uso relevante no Brasil.
  • Desempenho competitivo: Resultados em linha com os melhores avaliados.

Modelos e provedores são reavaliados periodicamente para manter o benchmark atualizado.

Declaração de Independência

Nossas avaliações são 100% independentes e objetivas.
Não recebemos qualquer compensação de fornecedores para inclusão ou resultados favoráveis.