Aplicação da TRI utilizando o R

8 min readApr 18, 2021

Introdução

Neste artigo, busca-se aplicar a Teoria da Resposta ao Item (TRI) na base de dados do Exame Nacional do Ensino Médio (Enem) de 2019, publicada pelo Instituto de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), com o software R, a partir do ambiente RStudio. Este artigo busca aprofundar a temática desenvolvida no artigo anterior a respeito da aplicação da Teoria Clássica de Testes (TCT), que pode ser encontrado no link a seguir: https://leofyada.medium.com/aplica%C3%A7%C3%A3o-da-tct-utilizando-o-r-1c63f67dc8be. O objetivo deste texto é apresentar, de forma prática, como utilizar a TRI para analisar avaliações educacionais e as proficiências dos indivíduos em determinada área do conhecimento.

Caso queira visualizar o código completo utilizado neste artigo, basta acessá-lo a partir do repositório no GitHub, que se encontra neste link: https://github.com/leofyada/AVALIACAO_EDUCACIONAL/blob/main/TRI.

Contextualização da TRI nas avaliações educacionais em larga escala

Desde os primeiros anos na escola lidamos com avaliações. Elas estão presentes em nosso cotidiano há muito tempo. Muito provavelmente a imagem de avaliação que temos está embasada no contexto da TCT. Isto é, nossas notas nada mais são do que a soma das questões respondidas corretamente, de modo que se acertamos 6 questões de 10, recebemos a nota 6. Seguindo esta lógica, podemos considerar que as questões difíceis são aquelas que apresentam baixo percentual de acerto. Entretanto, este processo de atribuição de notas não representa uma forma efetiva de medição de proficiência ou habilidade em determinada área do conhecimento, e sim uma quantificação dos acertos.

Além disso, os resultados são “teste-dependentes”, ou seja, dependem do teste aplicado e dos respondentes. Imagine, por exemplo, que uma mesma prova foi respondida por duas turmas diferentes, A e B. A primeira obteve um percentual de acerto de 70% no teste. A segunda, por sua vez, obteve um percentual de 100%. Veja, neste exemplo, que o grau de dificuldade varia conforme os níveis da habilidade dos respondentes, o que dificulta a sua utilização em análises comparativas ou em estudos longitudinais.

Para solucionar as limitações da abordagem da TCT, passou-se a utilizar a TRI nas avaliações educacionais em larga escala. Diferente da primeira, ela permite que se realizem estudos comparativos entre diferentes turmas ou mesmo entre diferentes séries. Os resultados, portanto, não são “teste-dependentes”, pois se utiliza uma mesma escala de proficiência, que funciona como uma régua para todos os estudantes com o objetivo de medir o domínio sobre o conhecimento que se busca mensurar.

Descrição da base de dados utilizada neste exercício

Conforme já mencionado, para a realização deste artigo, utilizou-se a base de dados do Enem de 2019 publicada pelo Inep, que pode ser obtida através do seguinte link: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados. Ademais, foram utilizadas as seguintes bibliotecas: “tidyverse”, “data.table”, “car”, “mirt”, “WrightMap” e “ltm”, conforme é possível visualizar no código abaixo:

A aplicação do modelo que será discutido posteriormente ocorreu em uma amostra de 10.000 participantes do Enem que estiveram presentes na prova de matemática. Esta amostra foi obtida por meio de uma Amostra Aleatória Simples (AAS) e considerou as respostas dos 45 itens da disciplina alvo presentes na base de dados.

Tipos de modelos da TRI

Os modelos da TRI podem ser aplicados a itens dicotômicos ou politômicos. Os primeiros são aqueles que admitem apenas duas respostas, sim ou não, certo ou errado etc. Os itens politômicos são aqueles que admitem mais de duas respostas, como é o caso de itens de questionários socioeconômicos. Para os itens dicotômicos, podemos utilizar três modelos distintos, a saber: modelo de Rasch, modelo de 2 parâmetros logísticos (2PL) e modelo de 3 parâmetros logísticos (3PL).

Na TRI, há três parâmetros logísticos: a) discriminação, que demonstra a capacidade de um item separar os estudantes que dominam a habilidade que está sendo medida dos que não dominam; b) dificuldade, que exibe o grau de dificuldade do item; e c) acerto ao acaso (“chute”).

No modelo de Rasch, apenas o parâmetro da dificuldade sofre variação, enquanto o parâmetro da discriminação é fixo e o parâmetro do acerto ao acaso é 0. No modelo de 2 parâmetros logísticos, por sua vez, tanto a discriminação quanto a dificuldade são variáveis, enquanto o terceiro permanece com valor 0. Por fim, no modelo de 3 parâmetros logísticos, todos são variáveis. Neste artigo, optou-se por adotar o último modelo, sobretudo por ser o utilizado na construção da escala de proficiência do Enem.

Para calcular o valor dos parâmetros de cada item do teste, utilizamos o código abaixo:

Parâmetro de discriminação

Com o fim de facilitar a visualização, vamos realizar um gráfico com as Curvas Características dos Itens (CCI) 5 e 23. No eixo horizontal, têm-se a proficiência ou a habilidade, enquanto no eixo vertical, a probabilidade de acerto.

O item 23 apresenta o maior valor para o parâmetro da discriminação. Interpretamos o gráfico acima da seguinte maneira: quanto maior é a inclinação que corresponde à reta tangente à curva no ponto de interesse, maior é o nível de discriminação do item. Note que o item 23 apresenta inclinações maiores e, portanto, é mais discriminatório que o segundo item.

Isso significa, na prática, que o item 23 possui maior capacidade de distinguir os estudantes que dominam a habilidade medida que o item 5. Desta forma, conclui-se que o item 23 é capaz de trazer maior quantidade de informações que o 5. Mais à frente, veremos como calcular o grau de informação que podemos extrair de um determinado item ou teste.

Parâmetro de dificuldade

No caso do parâmetro de dificuldade, temos que quanto mais a curva “caminha” para a direita, mais difícil é o item. Neste caso, por exemplo, veja que o item 19 é mais difícil que o 9, pois está localizado mais à direita no gráfico.

Parâmetro de acerto ao acaso

Por fim, temos o parâmetro de acerto ao acaso (“chute”). Veja, no gráfico abaixo, que quanto maior for o início da curva, maior é a probabilidade de acerto ao acaso. Por exemplo, no item 13, a curva parte, aproximadamente, de 0.328. Isso significa que a probabilidade do estudante acertá-lo sem dominar a habilidade que está sendo medida é maior quando comparado ao item 5.

No código, é possível visualizar o código utilizado para a construção dos três gráficos acima.

https://gist.github.com/leofyada/313b1192ca6d3ed89ba0427cf408e7b5.js

Curva Característica do Teste (CCT) e Curva de Informação do Teste (CCT)

Além de visualizar as CCIs individualmente, como feito acima, também é possível somá-las para se obter a Curva Característica do Teste (CCT). Este procedimento permite analisar a probabilidade de se obter determinado escore total bruto (soma de todas as questões acertadas) com base na proficiência ou habilidade. Veja, abaixo, o gráfico da CCT do exemplo deste artigo:

Neste caso, veja que a probabilidade de acerto de questões de um estudante com proficiência de 2 pontos seria, aproximadamente, 20. Por outro lado, a probabilidade de resultado no teste de um estudante com proficiência de -6 pontos seria de, aproximadamente, 9.

Além disso, um outro gráfico importante é a Curva de Informação do Item (CII). A variância da estimativa da proficiência é o inverso da função de informação do teste. Portanto, quanto menor for a variância da estimativa da proficiência, maior será a informação do item ou do teste que está sendo analisado. Assim como no caso da CCT, a Curva de Informação do Teste (CIT) é a soma da CIIs de todos os itens.

No gráfico abaixo, é possível verificar que o teste apresenta maior quantidade de informações entre as proficiências de 0 e 4.

Também é possível incluir, no gráfico acima, a curva do Erro Padrão, conforme gráfico abaixo:

Veja, acima, que quanto menor for o Erro Padrão, maior é a quantidade de informação que o teste apresenta. Ou seja, a maior quantidade de informação se localiza entre 0 e 4 pontos na escala de proficiência. No código abaixo, construiu-se um conjunto de gráficos para visualização das curvas características e de informação dos itens e testes.

Cálculo da proficiência

Finalmente, para calcularmos a proficiência dos estudantes, basta utilizarmos o código abaixo:

Um ponto importante a respeito da escala de proficiência é que se trata de uma medida intervalar, e não de razão. Isto significa que um estudante com proficiência estimada em 200 não possui o dobro da habilidade do estudante com proficiência estimada em 100. Ou seja, no caso das escalas de proficiência, não é possível identificar um zero absoluto, como é o caso, por exemplo, da idade.

Além disso, verifica-se que a proficiência estimada acima admite valores negativos. Portanto, é comum padronizá-la, a fim de facilitar ou tornar mais intuitiva a interpretação dos resultados. Para isso, basta multiplicar o resultado por 50 e somar 250. Estes valores são denominados fatores de transformação. Vale esclarecer, entretanto, que é possível utilizar outros valores, como 100 e 500, de modo que se obtém uma escala de 0 a 1000.

Diagrama de Wright

Para podermos interpretar os resultados obtidos pela aplicação da TRI, utilizaremos o Diagrama de Wright. Veja que tanto as proficiências dos alunos quanto a dificuldade dos itens encontram-se em uma mesma escala, o que caracteriza o fato do resultado não ser teste-dependente.

Note que há uma alta concentração de respondentes da amostra que não conseguiram realizar as atividades propostas no teste, apresentando, portanto, baixa proficiência estimada (veja o eixo vertical no lado direito do diagrama). Observe, ainda, que o item 19, como já havia sido observado anteriormente, é o mais difícil, de modo que se observa um baixo percentual de estudantes com probabilidade de acertá-lo corretamente.

Para construir o Diagrama de Wright, utilize o código abaixo:

Aplicações da TRI

O modelo de 3 parâmetros logísticos da TRI é aplicado em avaliações educacionais, programas de avaliações estaduais e municipais com base na escala do SAEB, políticas de accountability, estudos de eficácia escolar e estudos longitudinais. Em função de sua alta complexidade quando comparada aos procedimentos da TCT, não é muito comum utilizar os modelos da TRI no ambiente da sala de aula. Entretanto, como é possível observar no gráfico abaixo, verifica-se que há forte correlação entre o escore total bruto (total de acertos) e a proficiência.

A correlação entre a proficiência e o escore total bruto, calculado pelo método de Pearson é de, aproximadamente, 0.88. Ou seja, percebe-se que há forte relação entre as variáveis. É possível criar o gráfico acima e calcular a correlação a partir do código abaixo:

Conclusão

Como foi possível observar, a TRI é um conjunto de modelos estatísticos que permite análises comparativas entre diferentes turmas ou turmas de diferentes anos/séries, visto que localizam respondentes e itens em uma mesma escala. Vale ressaltar que a aplicação da TRI não exclui a utilização das rotinas clássicas da TCT, como percentual de acertos, correlação ponto bisserial e alfa de Crombach. Inclusive, é comum aplicar ambas as rotinas em uma mesma análise.