Aplicação da TCT utilizando o R

Leonardo Yada
6 min readApr 13, 2021

Introdução

Este artigo busca introduzir a aplicação da Teoria Clássica de Testes (TCT) utilizando o software estatístico R, a partir do ambiente RStudio. Há outros softwares que permitem a realização de tal análise, porém, por se tratar de uma plataforma open source e já contemplar bibliotecas específicas para o uso da TCT, optou-se pelo RStudio. Para isso, utilizou-se a base dos microdados do Enem, publicada pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), referente ao ano de 2019.

Tratamento da base de dados utilizada nas análises

Para a realização das análises, utilizou-se, como já mencionado, os microdados do Enem de 2019. Como é possível observar no código abaixo, selecionou-se apenas os estudantes que atendiam aos seguintes critérios: 1) estiveram presentes nas provas de todas as áreas de conhecimento; 2) não apresentaram problemas na redação, como fuga do tema ou não atendimento ao tipo textual; 3) já haviam concluído o ensino médio ou concluíram em 2019; e 4) estavam matriculados em escolas em funcionamento das redes estaduais de educação.

Em seguida, criou-se colunas para cada uma das questões, atribuindo 0 (zero) para o gabarito errado e 1 (um), para o correto. Para facilitar a visualização de dados, optou-se por selecionar apenas as 10 (dez) primeiras questões, e não todas as 45 (quarenta e cinco), conforme consta nos microdados.

Aplicação da TCT

Inicialmente, cabe passarmos por alguns conceitos básicos a respeito da Teoria Clássica de Testes (TCT), a fim de contextualizar, posteriormente, o surgimento da Teoria da Resposta ao Item (TRI) no campo da avaliação educacional. Uma das principais características da TCT é o uso de escalas somativas, ou seja, cada questão acertada soma 1 (um) ponto no resultado final, de maneira que, se você acertou 7 (sete) questões de 10 (dez), sua nota foi 7 (sete). Veja que a TCT é amplamente utilizada no ambiente escolar, sobretudo pela simplicidade de sua aplicação.

Dificuldade dos itens

Seguindo a concepção clássica, a dificuldade de cada item, portanto, estaria associada ao percentual de acertos pelos estudantes, de maneira que o item com menor percentual seria considerado o mais difícil do teste.

Veja, no gráfico acima, que o item 3 (três) seria considerado o mais difícil (14,03%), enquanto o item 1 (um), o mais fácil (39,58%). Nota-se, ainda, que por se tratar de um cálculo relativamente “simples”, pode ser amplamente utilizado em sala de aula.

Por outro lado, o grau de dificuldade do item se torna dependente dos próprios itens e dos respondentes. Por exemplo, se realizarmos a mesma rotina para uma amostra diferente, como estudantes de escolas da rede privada, pode-se levantar a hipótese de que os percentuais de acerto seriam superiores, considerando que o desempenho escolar está correlacionado ao nível socioeconômico. Portanto, o grau de dificuldade de cada item se torna relativo.

Discriminação dos itens

Em avaliação educacional, a discriminação dos itens se refere à capacidade de separar os alunos com alta proficiência na habilidade mensurada dos alunos com baixa proficiência. Neste sentido, os itens discriminatórios são positivos para fins da avaliação, à medida que permitem distinguir os alunos que dominam o conhecimento que se busca mensurar dos que não dominam.

No âmbito da TCT, uma forma de avaliarmos a discriminação de um item é verificarmos o percentual de acertos entre os estudantes que obtiveram maior nota no teste e entre os que obtiveram menor nota. Os itens que obtiverem a maior diferença de percentual de acerto são aqueles que possuem maior capacidade de discriminação.

No gráfico acima, agrupou-se os estudantes entre os 50% que obtiveram maiores notas (grupo 1) e os 50% que obtiveram menores notas (grupo 2). Nota-se que o item 3 (três), considerado o mais difícil dentre todos os itens analisados, possui baixa capacidade de discriminação, pois a diferença do percentual de acerto entre os dois grupos foi baixo. Portanto, trata-se de um item tão difícil que mesmo os melhores alunos obtiveram baixo percentual de acertos.

No gráfico acima, por outro lado, é possível verificar que a diferença de percentual de acerto entre ambos os grupos no item 5 (cinco) foi superior, 32,18%. Este item possui maior capacidade de discriminação.

Estatísticas clássicas com o pacote “ltm”

Para a aplicação da TCT, utilizou-se o pacote “ltm”, que permite realizar operações de estatística clássica, através do código abaixo.

Correlação ponto bisserial

Com a função apresentada “descript()”, é possível visualizar a correlação ponto bisserial. Trata-se da correlação entre um determinado item e o escore bruto total, ou seja, resultado final no teste. Observe que o item 3 (três) é o que possui menor correlação ponto bisserial, portanto, pode-se afirmar que possui baixa capacidade de discriminação em relação aos demais. Por outro lado, a questão 1 (um) apresenta alta correlação com o escore bruto total. Ou seja, neste caso, o item possui maior capacidade de discriminar os estudantes proficientes na habilidade que está sendo mensurada.

Veja que, no gráfico acima, é possível visualizar a relação entre o total do escore e a proporção de acertos nos itens 1 (um), 2 (dois) e 3 (três). Por exemplo, dos estudantes que obtiveram nota 6 (seis), aproximadamente 40% acertaram o segundo item.

Alfa de Cronbach

Além da correlação ponto bisserial, a função “descript()” também retorna o alfa de Cronbach, que é um coeficiente que busca mensurar a fidedignidade do teste, variando de 0 (zero) a 1 (um). Quanto menor o seu valor, menor é a correlação entre os itens presentes no teste e, portanto, menor é a sua consistência interna. No exemplo utilizado neste artigo, pode-se observar que o alfa de Cronbach considerando todos os itens é de 0.26, que é considerado baixo. Vale ressaltar, entretanto, que não se trata do único estimador de fidedignidade dos testes.

Limitações do uso da TCT

Como foi possível observar, a TCT possui diversas limitações, apesar de ser mais simples de aplicá-la quando comparada à TRI. A principal limitação que podemos mencionar é a necessidade de se utilizar o mesmo teste para todos os estudantes se quisermos realizar uma análise comparativa. Ou seja, como já mencionado anteriormente, se alterarmos a amostra utilizada neste artigo, provavelmente teríamos diferentes percentuais de acertos por questão, o que alteraria, consequentemente, o grau de dificuldade de cada item. Por esta razão, também não é possível construir uma série histórica de resultados.

A segunda limitação da TCT é que os resultados dos estudantes são quantificações, e não medidas. Conforme Silva (2019), a medição é um processo mais amplo que a quantificação, já que não se restringe a atribuição de valores numéricos a coisas ou processos, mas sim da obtenção de valores que podem ser atribuídos a determinadas grandezas.

Por fim, a TCT não permite a construção de escalas de habilidade, dificultando a interpretação pedagógica dos resultados.

Conclusão

A TCT, portanto, é uma abordagem mais simples de ser utilizada e compreendida no ambiente escolar quando comparada à TRI. Entretanto, ela possui certas limitações, impedindo, sobretudo, a análise comparativa de resultados e estudos longitudinais, como explicado anteriormente. Atualmente, as avaliações em larga escala, como é o caso do Enem, por exemplo, utilizam a TRI, visando superar as limitações mencionadas.

Referências bibliográficas

SILVA, W. Teoria da Medida (Capítulo 2). Proposta de uma metodologia para a produção e interpretação de medidas educacionais em avaliação em larga escala por meio da utilização da Modelagem Rasch com duas ou mais facetas. 150 p. Tese (Doutorado). Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro/ Departamento de Educação, 2019.

--

--