A nova controvérsia da OpenAI

Posts Relacionados:

OpenManus: o primeiro agente geral de IA de código aberto

Gemini irá acessar seu histórico de buscas

DeepSeek reabre API após pausa de três semanas

26.04.25

No mundo competitivo da IA, os benchmarking se tornaram cada vez mais importantes para medir o desempenho dos modelos. Em mais uma controvérsia, a OpenAI admite que usa um modelo para verificação de desempenho em benchmarkings e outro - piorzinho - para as consultas ao público.

Receba nossa newsletter

OpenAI no centro da roda novamente

No mundo competitivo e em rápida evolução da inteligência artificial (IA), ter o melhor modelo de IA garante muito sucesso, como vimos no início do ano com o fantástico DeepSeek. Neste quesito, os resultados em testes de benchmark tornaram-se uma métrica cada vez mais importante para medir o desempenho dos modelos. Recentemente, uma discrepância entre os resultados de benchmark oficialmente divulgados e de terceiros para o modelo o3 AI da OpenAI levantou questões sobre a transparência e as práticas de teste da empresa.

O modelo o3

Para aqueles que não estão familiarizados com o o3, ele é um modelo de linguagem de ponta revelado pela OpenAI em dezembro.

Segundo a empresa, ele ostenta desempenhos impressionantes. Entre seus feitos mais notáveis, o o3 consegue responder a mais de 25% dos problemas de matemática no FrontierMath, um conjunto notoriamente desafiador de problemas matemáticos.

O modelo da OpenAI e seu desempenho variante

No entanto, um teste de benchmark independente conduzido pela Epoch AI, um instituto de pesquisa por trás da FrontierMath, descobriu que o o3 obteve cerca de 10% na plataforma. Ou seja, um resultado significativamente menor do que a pontuação reivindicada pela OpenAI. Embora seja possível que a discrepância seja devido a diferenças na configuração de testes ou mesmo atualizações nos problemas do FrontierMath, isso levanta preocupações sobre a transparência da OpenAI e as práticas de teste de modelos.

Como a ARC Prize Foundation observou em um post recente, o modelo o3 público que usamos no site da empresa é “um modelo diferente […] ajustado para uso de bate-papo/produto”. Essa diferença pode contribuir para a disparidade observada nos desempenhos verificados. A organização também apontou que o número de camadas de computação lançadas publicamente são menores do que a versão que a OpenAI usou para obter suas fantásticas pontuações de benchmark. Membros da própria OpenAI reconhecem essas disparidades. Segundo as notícias, a empresa otimizou o o3 para casos de uso do mundo real e velocidade em relação aos modelos de demonstração. Embora isso possa explicar algumas discrepâncias, também levanta questões sobre se a OpenAI está priorizando as alegações de marketing em detrimento da transparência. Será que ela faria isso? 🤯🫨🫣

Benchmarking é só marketing?

Essa controvérsia destaca uma questão importante na indústria de IA: os resultados do benchmarking devem ser tomados com cautela, principalmente quando os fornecedores têm interesse – e muito – em promover seus modelos. Conforme o campo da IA continua a evoluir, é essencial que pesquisadores e desenvolvedores abordem os resultados dos benchmarkings com um olhar crítico e considerem várias fontes antes de tirar conclusões. Principalmente para aqueles que querem construir aplicativos e garantir o uso do melhor modelo, mantenha a desconfiança acesa. Portanto, ao avaliar o desempenho de um modelo, certifique-se de consultar várias fontes e verificar os resultados em relação à benchmarks independentes. Considere fatores como ambiente de teste, recursos de computação e atualizações para problemas de benchmark que podem afetar os resultados. E não se esqueça: aborde as alegações de sobre o desempenho dos modelos com uma boa dose de ceticismo.