Carmen E. Flores-Mendoza; Francisco J. Abad; Álvaro José Lelé
9 de abril de 2015
Análise de itens do desenho da figura humana: aplicação de TRI1
Carmen E. Flores-MendozaI,2; Francisco J. AbadII; Álvaro José LeléIII
IUniversidade Federal de Minas Gerais
IIUniversidad Autónoma de Madrid
IIICentro Universitário Newton Paiva
RESUMO
O Desenho da Figura Humana é um dos instrumentos mais divulgados e utilizados na prática de avaliação psicológica de crianças no Brasil. Recentemente um novo sistema de correção para avaliação cognitiva infantil foi publicado por Wechsler (2000, 2003). O presente trabalho constitui a primeira tentativa de análise psicométrica dos itens que compõem o desenho da figura masculina utilizando modelos matemáticos da Teoria de Resposta ao Item (TRI). A análise dos resultados obtidos em duas amostras de crianças (711 da cidade de Campo Grande e 564 da cidade de Belo Horizonte), aponta que a consistência interna do instrumento, considerando 53 itens, é adequada (0,87). Contudo, a análise de TRI, modelo politômico, mostra haver problemas de dificuldade e discriminação de um grupo de itens. Conclui-se que o instrumento não está bem calibrado e, portanto, há necessidade de ajustes quanto ao conjunto de itens que o compõe.
Palavras-chave: desenho da figura humana; TRI; análise de itens.
ABSTRACT
The Human Figure Drawings is one of the most divulged and used instruments in the practice of psychological evaluation of children in Brazil. Recently, Wechsler (2000, 2003) published a new correction system to cognitive evaluation. This work constitutes the first attempt of psychometric analysis of items related to male figure using mathematic models from Item Response Theory (IRT). The analysis of the results obtained in two samples of children (711 from the city of Campo Grande and 564 from the city of Belo Horizonte) with the Male Drawing points that the internal consistency of the instrument is adequate (.87) when 53 items are considered. Nevertheless, the IRT analysis, polytomous item responses, shows problems of difficulty and discrimination of a group of items. It's inferred that the instrument is not well calibrated and consequently there is a necessity of adjustments on the set of items that compound it.
Key words: human figure drawing; IRT; items analysis.
O desenho da figura humana é um dos temas preferidos pelas crianças e seu estudo remonta ao século XIX. Segundo Kamphaus e Pleiss (1991), já em 1885 com Ebenezer Cooke nos Estados Unidos e em 1887 com Conrado Ricci na Itália, encontram-se trabalhos sobre aspectos desenvolvimentais de desenhos de crianças. O ápice do interesse em grafismo infantil teria ocorrido entre os anos 1900 e 1915, período em que apareceram duas grandes investigações internacionais. A de Lambrecht em 1906, com desenhos coletados em diversos paises e culturas e a de Claparède em 1907. A primeira não foi concluída e a segunda constitui a tentativa de estabelecer estágios de desenvolvimento em paralelo à capacidade intelectual geral. As tentativas de estabelecer parâmetros do desenvolvimento psicológico infantil através do desenho baseiam no fato de que, no entender de Van Kolck (1981), o grafismo da criança constitui uma expressão do desenvolvimento em geral, isto é, pode-se estabelecer as fases de desenvolvimento de diversas dimensões psicológicas como a percepção visual, a psicomotricidade, o desenvolvimento conceptual e outros.
O primeiro estudo bem sucedido e sistemático do desenho da figura humana para avaliação do desenvolvimento infantil, constitui, talvez, o trabalho de Florence Goodenough realizado em 1926 na Universidade de Minnesota, Estados Unidos (Abou-Jamra & Castilho, 1987). Conhecido como "Draw-a-ManTest" o teste de Goodenough visava analisar o aparecimento, no desenho, de partes do corpo humano conforme aumentava a idade cronológica. As diferenças que surgiam no desenho das crianças proporcionariam, assim, um instrumento de medida. No estudo de Goodenough foram escolhidos, catalogados e observados 4.000 desenhos de crianças da escola maternal e da escola primária. Objetivava-se assim identificar as diferenças existentes nas produções dos grupos superiores e observar as mudanças que ocorriam durante o desenvolvimento dos menores (Abou-Jamra & Castilho, 1987). A escala final de Goodenough constava de 51 itens cuja aplicação e avaliação estatística conferiu à autora a conclusão de que a criança desenha o que ela sabe e não o que ela vê. Posteriormente Harris, na década de 60, pretendeu estender a escala de Goodenough para uso em adolescentes e propor um sistema de pontuação para análise da figura feminina (no estudo de Goodenough empregou-se somente a figura masculina). Harris não conseguiu alcançar o primeiro objetivo. Com a adição da figura feminina, elaboração de novos itens para avaliação da figura masculina e a utilização do desenho de si mesmo como técnica projetiva, o sistema de Harris ficou conhecido como "Goodenough-Harris Draw-A-Person" (Alves, 1981). Segundo Abou-Jamra e Castilho (1987), os estudos visando obter informações das características psicométricas do instrumento, indicam que, no aspecto relacionado à estabilidade temporal, encontraram-se correlações entre 0,60 a 0,91 utilizando o sistema Goodenough e de 0,42 a 0,79 utilizando o sistema Harris. Por outro lado, apesar da aplicação duvidosa da técnica das metades para verificação da pertinência dos itens do Desenho da Figura Humana, os índices encontrados com essa técnica foram maiores a 0,75. Quanto à análise da precisão dos avaliadores, uma vez que o julgamento da pontuação depende da ótica do avaliador sobre o desenho, os índices encontrados foram maiores a 0,80, o que faz supor uma alta objetividade do instrumento.
Em 1988, surgiu nos Estados Unidos a proposta de Nagliari chamada The Draw A Person: A Quantitative Scoring System (DAP). Trata-se de uma revisão e atualização do trabalho de Goodenough e Harris. A nova proposta constitui de 64 itens e foi normatizada com base em uma amostra representativa de 2.622 crianças americanas. A análise de consistência interna apontou um coeficiente de 0,86 e uma estabilidade temporal de 0,74. Como em outros sistemas de correção, o sistema de Nagliari obteve uma correlação média entre avaliadores de 0,94 (Kamphaus & Pleiss, 1991). No Brasil, os estudos do Desenho da Figura Humana como forma de avaliação cognitiva podem ser encontrados em Almeida (1959), Alves (1981), Lessa (1953), Zausmer (1954) e, mais recentemente, Wechsler (2000, 2003).
Sistema Wechsler de Avaliação do Desenho da Figura Humana
A proposta de Wechsler (2000, 2003) revisa os trabalhos de Harris, Koppitz e Nagliari. Composto de 58 itens para avaliação da figura masculina e de 53 itens para a figura feminina, o sistema Wechsler foi normatizado com base a duas amostras, a primeira com 2.391 crianças de Brasília-DF e a segunda, com 588 crianças da cidade de Campinas-SP. O estudo de estabilidade temporal do instrumento, considerando a amostra total, apresentou um coeficiente de 0,75 para a figura feminina e um coeficiente de 0,69 para a figura masculina. A análise de consistência interna apontou um coeficiente alpha para o desenho feminino entre 0,77 e 0,89 (crianças do sexo feminino e masculino) e um coeficiente entre 0,76 a 0,86 para o desenho masculino (crianças do sexo feminino e masculino). Tais resultados indicam que o instrumento apresenta bons índices de precisão. Também se observaram diferenças em relação ao sexo da criança e ao sexo da figura desenhada, o que motivou a realização da normatização considerando, além da idade, as variáveis sexo da criança e sexo do desenho.
O sistema Wechsler passou por três revisões antes da versão final. Para verificar a precisão dos avaliadores, utilizou-se o procedimento de juízes cegos. Da primeira versão à terceira versão, a análise de concordância entre os juízes apontou um aumento dos coeficientes de correlação. Assim, na versão final, observam-se altas concordâncias entre os juízes que variaram entre 0,95 a 0,98 para a figura masculina e de 0,93 a 0,97 para a figura feminina. No que diz respeito à análise de itens, a autora seguiu os critérios de Koppitz, quais sejam a porcentagem de ocorrência em três faixas de amplitude (classificados como esperados, comuns e incomuns) de cada item em cada faixa etária, de acordo com o sexo da criança e o sexo da figura desenhada. Também se observou uma classificação chamada de "itens excepcionais" cujo significado não fica suficientemente claro no manual.
Em 2003, a autora apresentou novos dados atendendo a uma recomendação da Internacional Testing Commission sobre revalidação e repadronização de instrumentos psicológicos. O novo estudo refere-se a dados de crianças oriundas de cinco estados brasileiros, quais sejam Bahia, Minas Gerais, Rio de Janeiro, Rio Grande do Sul e São Paulo. A amostra final ficou conformada em 3.340 crianças, sendo 49,5% dela conformada por crianças de São Paulo. A amostra deste segundo estudo foi superior à primeira, não só pela quantidade de crianças envolvidas, mas também pela representação geográfica. O resultado da análise de variância mostrou haver efeito da idade, sexo e tipo de figura. A consistência interna apontou um coeficiente alpha, dependendo da faixa etária, entre 0,83 a 0,89 para a figura masculina e entre 0,77 a 0,85 para a figura feminina. A precisão entre cinco avaliadores ficou entre 0,94 a 0,99. Por outro lado, a comparação de médias entre as amostras do primeiro estudo (1996) e do segundo estudo (2003), mostrou diferenças significativas nos dois tipos de figuras, masculino e feminino. A amostra do segundo estudo apresentou um desempenho gráfico superior ao da primeira amostra, o que motivou a autora a realizar uma repadronização do instrumento.
Em geral, pode-se dizer que os estudos de Wechsler (2000 & 2003), mostram evidências de um efeito desenvolvimental no desempenho gráfico infantil, isto é, à medida que aumenta a idade cronológica aumenta também a pontuação total. Se esse efeito desenvolvimental está, ou não, relacionado à capacidade cognitiva deverá ser tema de outras investigações. No momento, focalizar-se-á uma especial atenção à ausência de análise de itens tanto no primeiro estudo quanto no segundo. Isto é, não se encontra informação sobre a capacidade dos itens em representar o traço que o instrumento pretende medir, como tampouco do grau de eficiência com que o fazem (índice de dificuldade e de discriminação). O estabelecimento de uma análise empírica dos itens permite que se obtenha informação sobre a eficiência do instrumento em discriminar diferenças individuais no desenvolvimento do traço. Assim por exemplo, um instrumento com itens muito fáceis, em que qualquer sujeito independente da sua capacidade acerte a resposta, produzirá uma curva assimétrica com distribuição do traço concentrada à direita. Inversamente, um instrumento com itens muito difíceis, em que qualquer sujeito independente da sua capacidade falhe na resposta, produzirá uma curva assimétrica concentrada à esquerda. Nesse sentido, a análise de itens torna-se necessária para saber o quão eficiente é um instrumento na identificação do grau de capacidade do indivíduo. Atualmente, existe uma forma moderna, porém complexa, de analisar o comportamento dos itens. Trata-se da Teoria de Resposta ao Item, e que a seguir será brevemente descrita.
TRI e análise de itens
A Teoria de Resposta ao Item (TRI), é uma teoria estatística geral em que por meio de diversos modelos matemáticos tenta-se investigar a probabilidade do sujeito responder corretamente a qualquer item do teste em função da sua habilidade. Assim os modelos trabalham na perspectiva de relacionar dados observáveis (desempenho no teste) a dados não observáveis (habilidade cognitiva). O relacionamento resultante pode ser observado através da função ou curva característica do item (Item Characteristic Curve-ICC), em que se registra os níveis de êxito para cada item e a proporção de pessoas de cada nível que supera cada item. Na estimativa do ICC freqüentemente considera-se três parâmetros: a discriminação (parâmetro a), a dificuldade (parâmetro b) e a adivinhação do item (parâmetro c). O item do teste pode ser contínuo ou discreto, ordenado ou não ordenado (Hamblenton & Jones, 1993). A utilização da Teoria de Resposta ao Item pressupõe duas exigências: unidimensionalidade e independência local.
A unidimensionalidade diz respeito ao pressuposto da TRI de que os itens do teste solicitam uma aptidão dominante, isto é, o teste seria sensível à expressão significativa de um domínio do comportamento humano. A independência local significa que as respostas a um conjunto de itens estão vinculadas à probabilidade da resposta correta do examinando a cada item individual. Num teste tradicional, a probabilidade de resposta correta a um determinado item depende do acerto ou erro nos itens anteriores. Isto não ocorre na análise de TRI. A resolução a cada item é independente da resolução dos outros itens.
Uma vez estabelecidos os parâmetros dos itens deve-se demonstrar a adequação do modelo escolhido (modelo de um, dois ou três parâmetros) aos dados observados. Para tanto se analisa os resíduos e a invariância dos parâmetros. A primeira, análise dos resíduos, diz respeito à diferença maior que zero entre o observado e o predito pelo modelo. A segunda, análise da invariância, diz respeito ao grau de semelhança entre as ICCs quando extraídas de duas amostras de sujeitos submetidos ao mesmo teste (Pasquali, 1999).
A maioria dos instrumentos de rendimento ótimo (ex. testes de inteligência) é composta de itens de resposta binária (0,1), razão pela qual tornaram-se mais conhecidos os modelos de TRI dicotômicos. O Desenho da Figura Humana, contudo, apresenta categorias ordenadas nas quais se supõe que para ter um desempenho ótimo em uma determinada categoria o sujeito deve responder bem a uma série de passos anteriores. Por exemplo, na categoria "Nariz" , o sujeito ao obter um ponto em 4c (estrutura completa do nariz), o sujeito deve ter respondido 4b (duas dimensões) e, consequentemente, 4a (presença de nariz). A análise dos itens desse sistema de pontuação poderá ser feita, então, utilizando o "Modelo de Resposta Graduada". Esse modelo criado por Samejima (1997) pressupõe que codificando as respostas do sujeito entre 0 e m-1 (sendo m o número de respostas distintas), a probabilidade de ocorrer a escolha de uma categoria maior ou igual que k, em função do nível de habilidade q, e é dada pela função:
A fórmula não está definida para k = 0 e k = m, porém, logicamente:
Esta função é a mesma que se utiliza para o modelo logístico de dois parâmetros. Por tal motivo se afirma que o modelo de resposta graduada é uma generalização deste modelo ao caso politômico (Embretson & Reise, 2000).
Seguindo essa direção, o presente estudo visa apresentar a aplicação da Teoria de Resposta ao Item, modelo de resposta graduada, à análise do Desenho da Figura Humana (sistema Wechsler), numa tentativa de aperfeiçoar a identificação de suas propriedades psicométricas. Para tanto, realizaram-se dois estudos, o primeiro com uma amostra de Campo Grande (MS) e o segundo com uma amostra de Belo Horizonte (MG).
Estudo 1
Foi coletado no ano de 1996, um total de 711 desenhos da figura masculina de crianças sem déficits físicos ou sensoriais, sendo 360 desenhos realizados por crianças do sexo feminino e 351 desenhos realizados por crianças do sexo masculino, com faixa etária entre 6 anos e 5 meses até 12 anos, freqüentadoras de seis escolas públicas da região metropolitana de Campo Grande – Mato Grosso do Sul. As escolas foram sorteadas aleatoriamente de uma lista cedida pela Secretaria de Ensino. Cada escola participante autorizou, mediante a sua Direção, a realização da coleta de dados. O sistema de pontuação adotado para análise dos desenhos foi o proposto por Wechsler (2000, 2003), especificamente aquele relacionado ao desenho da figura masculina. Para verificar a precisão dos critérios de correção, dois conjuntos de 40 desenhos não pertencentes à amostra, foram avaliados por uma equipe de nove juízes.
Resultados
Concordância entre avaliadores
O índice de concordância entre os juízes para as pontuações totais foi de 0,94. Contudo, considerando os 58 itens para avaliação da figura masculina, o índice de concordância, para cada item, variou entre 0,72 a 1,00. Os itens 8a (Rosto-proporção), 13e (Pernas-espaço entre as pernas), 16a (coordenação motora-linhas) e 16b (coordenação motora-união) foram os que obtiveram menor acordo entre os juízes (0,77; 0,75; 0,72 e 0,77 respectivamente). Para esses itens adicionou-se informação mais detalhada de avaliação. Um novo conjunto de 40 desenhos foi avaliado por oito juízes dos nove que compunha a equipe inicial, desta vez considerando as informações adicionais. O índice de concordância entre os juízes para os itens 8a e 13e aumentou para 0,88 e 0,80 respectivamente, porém os itens 16a e 16b mantiveram um índice de concordância um pouco abaixo (0,75 e 0,76) do tradicionalmente aceito (0,80).
Uma descrição da amostra quanto às variáveis sexo, idade, pontuação média e variabilidade é apresentada naTabela 1.
Uma análise de variância foi realizada para verificar os efeitos das variáveis sexo e idade no desempenho da amostra. Os resultados mostraram haver efeito da idade [F(11) = 11,318, p = 0,000], o que reforça a hipótese do instrumento medir algum construto desenvolvimental. A proporção de variância na pontuação total explicada pela variável idade é de 15% (quadrado do valor Eta). Por outro lado, diferentemente do estudo de Wechsler (2000), não se encontrou efeito da variável sexo [F(1) = 0,086, p = 0,769], pelo menos no que diz respeito ao desenho da figura masculina. Tampouco foi significativa a interação sexo x idade [F(11) = 0,615, p = 0,817].
A Figura 1 mostra que conforme aumenta a idade, aumenta também a pontuação total no desenho da figura masculina. Tal ocorrência se observa tanto em crianças do sexo feminino quanto do sexo masculino.
Análise de itens: primeira exploração dos dados
Analisaram-se 57 dos 58 itens devido a que o item 1a (presença de cabeça) não apresentou variabilidade nas respostas. Para aplicar os modelos da teoria de resposta ao item comprovou-se em primeiro lugar o critério de unidimensionalidade. Para tanto, aplicou-se o NOHARM, um programa de análise fatorial. Encontrou-se quatro itens dos 57 com pesos negativos ou próximos a zero [8a (proporção do rosto), 16a (coord. motora-linha), 16b (coord. motora-união e 17 (presença de perfil ou frente)]. Os pesos dos itens podem ser observados no Tabela 2. Conclui-se que esses itens não podem ser analisados mediante TRI (de fato correlacionam zero ou negativamente com a pontuação total, logo uma análise clássica deveria ter descartado esses itens). Inclusive, é preciso destacar que três desses itens (8a, 16a e 16b) são os mesmos que apresentaram baixa concordância entre juízes.
Considerando os 53 itens restantes encontrou-se que o primeiro fator explica 28% da variância. Logo, poderia-se afirmar que o teste é suficientemente unidimensional conforme alguns dos critérios clássicos. O programa NOHARM proporciona as covariancias residuais (diferenças entre as covariancias empíricas e as covariancias teóricas segundo a solução unidimensional). A raiz quadrada média desses resíduos (Root mean square of residuals ou RMSR) para a solução unifatorial é de 0.010229, enquanto uma solução bifatorial exploratória somente produz um ligeiro decréscimo da RMSR a 0.009928 (um decréscimo inferior ao 10%). Portanto, um modelo unidimensional se ajusta moderadamente bem aos dados.
No entanto, se comprova que em geral sendo pequenos os resíduos, há pequenos subconjuntos de itens que mostram relações não explicadas pelo fator geral e que estão relacionados ao seu conteúdo específico (itens 2a e 2b; 6a e 6b; 7a e 7b; 9a e 9b; etc.). Tal situação constitui um problema posto que indicaria que o requisito de independência local, necessário para aplicar a TRI, não se cumpre. Tais subgrupos estão estritamente relacionados ao sistema de pontuação.
Segundo a TRI, para pessoas com um mesmo nível de traço, a probabilidade de acertar dois itens (ex. itens 2a e 2b) deveria ser o produto das probabilidades de acertar cada um desses itens em separado. Claramente no teste do Desenho da Figura Humana, as probabilidades não são independentes: se o cabelo segue a linha da cabeça (acerto no item 2b) necessariamente o cabelo está presente (acerto no item 2a). Tal situação se repete em numerosos itens. Portanto, o modelo de dois parâmetros deve ser aplicado com extrema precaução, uma vez que se viola um dos pressupostos de aplicação da TRI.
Tal problema não está relacionado à TRI. Deve-se recordar que os índices de consistência interna nessas situações geralmente se superestimam posto que a covariação entre os itens está relacionada não apenas ao construto medido, mas também aos mais específicos (por exemplo, os erros dos itens se correlacionam). Portanto, se faz necessário aplicar modelos em unidades de análise nos quais seja possível o cumprimento do pressuposto de independência local. Assim sendo, a estratégia será ao invés de utilizar os itens como unidades de análise, utilizar grupos de itens.
A seguir são descritas duas análises sobre os 53 itens. Primeiro se aplica um modelo dicotômico (o modelo logístico de dois parâmetros) e depois se aplica um modelo politômico de TRI (o modelo de resposta graduada).
Ajuste do Modelo Logístico de Dois Parâmetros
Em geral, o ajuste dos 53 itens ao modelo é adequado. Para tanto, utilizou-se o programa PARSCALE (Muraki & Bock, 1997) estimando o modelo com métrica normal (D = 1,7). O programa proporciona uma estatística de ajuste para cada item mediante a qual se pode estabelecer o nível de significância estatística das discrepâncias entre as freqüências de escolha das opções teóricas e as observadas para cada nível de habilidade (estatística X2). Nas primeiras colunas da Tabela 3, se apresentam os X2, seus graus de liberdade, o nível de significância e a razão entre X2 e os graus de liberdade. Observa-se que nenhuma das estatísticas é significativa e a razão X2/gl é um valor inferior a 3 para todos os itens. Portanto, pode-se afirmar que todos os itens se ajustam razoavelmente ao modelo.
A distribuição dos parâmetros a (média = 0.76; dp = 0.31) e dos parâmetros b (média = 0.28; dp = 2.07), indica que os itens tendem a ser pouco discriminativos e que muitos itens apresentam parâmetros b extremos (ou são muito fáceis ou são muito difíceis). Itens claramente inadequados por sua baixa discriminação são: 1b (adaptação do cabelo), 3b (pupilas), 3e (direção dos olhos), 4a (presença nariz), 9a (presença queixo), 9b (queixo e testa), 10a (presença mãos), 11b (braços – tronco), 11d (cumprimento braços), 11f (união II), 13c (cumprimento pernas) e 13e (espaço entre pernas). Pressupondo a invariância de parâmetros pode-se dizer que esses itens serão poucos discriminativos independentemente do grupo de idade analisado. Observa-se, também, a discrepância entre a dificuldade dos itens e o nível de habilidade do grupo de idade analisado. Existem itens claramente inadequados por sua excessiva facilidade [3a (presença olhos), 4a (presença nariz), 5a (presença boca), 9a (presença queixo), 9b (queixo-testa), 11a (presença braços), 11e (união I), 13a (presença pernas), 15a (presença tronco) e o 15b (duas dimensões tronco)] ou por sua excessiva dificuldade [1B (proporção cabeça), 2c (penteado cabelo), 4c (estrutura completa nariz), 5b (duas dimensões lábios), 5c (nariz e lábios), 6b (proporção orelha), 10e (posição do polegar), 11c (cotovelo), 11g (proporção braços), 13b (joelho) e o 15c (contorno tronco)]. Os parâmetros a e b são apresentados na Figura 2 (ver também resumo na Tabela2).
No gráfico seguinte (Figura 3) se mostra o erro padrão de medida em função do nível de habilidade estimado (segundo a TRI). Observa-se que os 53 itens apresentam um erro padrão de medida bastante aceitável em toda a amplitude da habilidade.
A estimação da precisão por meio da TRI pode ser obtida mediante o cálculo do erro padrão de medida para uma distribuição concreta de q (ex. distribuição normal de q com média 0 e desvio padrão de 1) e calculando o valor rxx mediante a fórmula rxx = 1-Var[e]/Var[qest]). Na presente análise, obteve-se um coeficiente de precisão de 0,87, portanto, ligeiramente superior à estimação clássica de consistência interna alpha (0,86).
Ajuste do modelo de resposta graduada de TRI
Em primeiro lugar, deve-se decidir quais conjuntos de itens são suscetíveis de tratamento politômico. O objetivo é não perder informação, isto é, ao seguir um sistema de pontuação politômica deve-se obter exatamente a mesma pontuação utilizada no sistema dicotômico. Por exemplo, se todos os sujeitos apresentam padrões de resposta para dois itens de 00 (falha-falha), 10 (acerto-falha) e 11 (acerto-acerto) então não haverá problemas em que esses dois itens dicotômicos possam ser pontuados como um único item politômico 0, 1 e 2. A pontuação politômica seria: 0 ponto se há falha no primeiro item, 1 ponto se há falha no segundo item e 2 pontos se não há falha em nenhum dois itens. O padrão 01 (falha-acerto) representa na verdade uma inconsistência lógica, posto que não se espera "penteado" (2c) quando não houve "presença de cabelo" (2a). De qualquer forma se algum item permitir um padrão 01 (falha-acerto) os sujeitos serão pontuados em 0 pelo sistema de pontuação politômico. Nesse caso, mudarão as pontuações dos sujeitos dependendo do sistema de pontuação dicotômico ou politômico e poderá haver perda de informação importante. Portanto, analisaram-se item a item quais eram suscetíveis de serem pontuados politômicamente. A análise identificou que os 53 itens podiam ser agrupados em 33 itens politômicos. Essa informação aparece resumida no Quadro 1.
Calculou-se uma nova pontuação para os novos 33 itens. A correlação entre as duas pontuações (dicotômica e politômica) foi de 0,997. Tal resultado permite inferir que se trabalhou com a mesma pontuação apesar da diferença entre os modelos.
Em geral o ajuste dos 33 itens ao modelo politómico é adequado. Novamente, utilizou-se o programa PARSCALE (Muraki & Bock, 1997) estimando o modelo de resposta graduada com métrica normal (D = 1,7).
Observa-se que os parâmetros a e b foram praticamente iguais para aqueles itens que se mantiveram na forma original sem agrupar (Tabela 2). Na Tabela 3, últimas colunas, se apresentam os X2, os graus de liberdade, o nível de significância e a razão entre X2 e os graus de liberdade. Verifica-se que nenhuma estatística é significativa e que a razão X2/gl é, novamente, um valor inferior a 3 para todos os itens. Portanto, pode-se afirmar que todos os itens se ajustam adequadamente ao modelo de resposta graduada.
A distribuição dos parâmetros a (média = 0,68; SD = 0,30) confirma o caráter pouco discriminativo de alguns itens. Assim, itens claramente inadequados por sua baixa discriminação são: 1b, 3b, 3e, 9ab, 10a, 11ab, 11d, 11f, 13ab, 13c e o item 13e.
Considerando o ajuste da dificuldade dos itens, observam-se itens claramente inadequados por sua excessiva facilidade (2abc, 3ad, 4abc, 5abc, 9ab, 11ab, 11e, 13ab e 15abc) ou por sua excessiva dificuldade (1b, 2abc, 4abc, 4d, 5abc, 6ab, 10e, 11c, 11g, 13ab, 14abc e 15abc). A interpretação de tais resultados é bastante similar à realizada para os modelos dicotômicos, à qual pode-se acrescentar:
– No item 9, a e b (queixo-testa) apresentam dificuldades muito próximas. Isto faz com que uma das pontuações seja muito pouco eleita. Poderia-se concluir que ao utilizar o item 9a, não faz falta o item 9b, ou vice-versa.
– No item 2abc, os critérios a e b (presença-adaptação de cabelo) possuem dificuldades muito próximas. Isto faz com que uma das pontuações seja muito pouco eleita. Poderia-se concluir que ao utilizar o item 2a, não faz falta o item 2b, ou vice-versa.
– No item 5abc, os critérios b e c (lábios-nariz) possuem dificuldades muito próximas. Isto faz com que uma das pontuações seja muito pouco eleita. Poderia-se concluir que ao utilizar o item 5b, não faz falta o item 5c, ou vice-versa.
Em resumo, a aplicação dos modelos de TRI à análise dos itens do Desenho da Figura Humana, no Estudo 1, aponta as seguintes evidências: 1) unidimensionalidade do instrumento; 2) adequada precisão; 3) possibilidade de analisar 33 itens com o modelo politômico de TRI.
Estudo 2
Participaram 559 crianças de cinco escolas da região de Belo Horizonte, a maioria (77,7%) proveniente de escolas públicas. A coleta de dados realizou-se em 2003, após o devido consentimento informado por parte das instituições participantes. A estatística descritiva é apresentada logo a seguir.
Uma análise de variância foi realizada para verificar os efeitos das variáveis sexo e idade no desempenho da amostra. De forma semelhante ao Estudo 1, os resultados mostraram haver efeito da idade [F(5) = 28,796, p =0,000], o que reforça a hipótese do instrumento medir algum construto desenvolvimental. Contudo, novamente, diferentemente do estudo de Wechsler (2000), não se encontrou efeito da variável sexo [F(1) = 0,567, p =0,568], pelo menos no que diz respeito ao desenho da figura masculina.
TRI e análise de itens
Para efeito de verificar a validação da calibração dos itens obtida no Estudo 1, aplicou-se o modelo de resposta graduada considerando os 33 itens selecionados no estudo anterior. Observou-se que um dos itens (item 23-proporção dos braços) não se ajustou à nova amostra (p = 0,01). A correlação entre os parâmetros estimados nas duas amostras para os 32 itens restantes foi de 0,66 para o parâmetro a e de 0,96 para o parâmetro b. Posteriormente, procedeu-se à calibração dos 32 itens restantes utilizando ambas as amostras simultaneamente, isto para efeito de uma maior qualidade da estimação. A nova calibração identificou o desajuste de dois novos itens (item 24-presença e forma de ombros e item 33-roupa I, II e IV). Isto quer dizer que embora cada um desses itens se ajustava bem ao modelo de TRI, ao se considerar ambas as amostras o ajuste não ocorria. Assim sendo, procedeu-se à correlação entre os parâmetros estimados para ambas as amostras considerando os 30 itens restantes. Obteve-se uma correlação de 0,63 para o parâmetro a e 0,95 para o parâmetro b. A Figura 4 mostra os gráficos de dispersão para o parâmetro a e para o parâmetro brespectivamente, estimados em ambas as amostras.
Observa-se que para alguns itens (ex. 4-sobrancelha ou 19-cotovelo) os resultados no parâmetro a diferem bastante de um grupo para outro. Os resultados da calibração final dos 30 itens com toda a amostra aparecem na Tabela 5, ordenados pela dificuldade do primeiro sub-item, assim como os itens eliminados (Quadro 2).
A correlação, considerando os 30 itens, entre os novos parâmetros e os parâmetros estimados na amostra inicial é de 0,86 (parâmetro a) e de 0,99 (parâmetro b), o que sugere que quando se considera a calibração completa não se observam mudanças substanciais nos parâmetros ao adicionar a nova amostra. Contudo, deve-se destacar diferenças de magnitude no desempenho de ambas amostras. A primeira amostra (obtida em 1996 na cidade de Campo Grande-MS) obteve uma média de –0,32 e um desvio padrão de 0,81. A segunda amostra (obtida em 2003 na cidade de Belo Horizonte-MG) obteve uma média de 0,40 e um desvio padrão de 0,81. Isto significa que a primeira amostra apresentou um nível mais baixo do traço subjacente à realização do teste do que a segunda amostra (Figura 5). A interpretação deste resultado deverá perpassar pela análise das condições sócio-educativas e econômicas de cada Estado assim como a possibilidade de um efeito temporal no desenvolvimento infantil.
Considerações Finais
A análise do Desenho da Figura Humana utilizando o sistema de correção Wechsler (2000,2003) mostrou que o instrumento em geral, descartando-se cinco itens, apresenta razoável unidimensionalidade. Isto é, os itens que compõe o instrumento provavelmente medem um mesmo construto (o primeiro fator explicou 28% da variância). A definição sobre qual construto está subjacente ao instrumento deverá ser estabelecida através de análises de validade convergente e divergente. Diferentemente dos estudos de Wechsler, na presente investigação não se observaram diferenças de sexo no desenho da figura masculina em nenhuma das duas amostras. Observou-se sim, como já era esperado, efeito da idade. No que diz respeito à sua consistência interna, o instrumento apresentou um alto coeficiente de fidedignidade (0,87) bastante próximo dos encontrados nos estudos de Wechsler.
Embora deva-se ter cuidado com a aplicação do modelo dicotômico da TRI à análise do Desenho da Figura Humana, pela não independência local de alguns de seus itens, tanto esse quanto o modelo politômico de TRI (correlação entre os modelos de 0,86 para o parâmetro a e de 0,99 para o parâmetro b) mostra claramente problemas de discriminação de 12 itens. Também observaram-se problemas de dificuldade dos itens, seja por serem muito fáceis (10 itens) ou por serem muito difíceis (11 itens). Tais resultados sugerem uma revisão técnica dos itens que compõe o instrumento.
Um outro tipo de resultado que merece uma atenção cuidadosa da comunidade acadêmica refere-se às diferenças de desempenho entre as amostras. Nos estudos de Wechsler, observou-se que o desempenho da amostra de 2003 (São Paulo, Minas Gerais, Bahia, Rio de Janeiro e Rio Grande do Sul) foi superior ao da amostra de 1996 (Brasília e Campinas), por tanto encontraram-se diferenças em um intervalo de sete anos. Na presente investigação, a amostra de 2003 (Belo Horizonte) também foi superior à amostra de 1996 (Campo Grande), portanto encontrou-se o mesmo fenômeno no mesmo intervalo de tempo. Apesar das análises estatísticas serem muito diferentes entre os estudos (teste t de Student no estudo de Wechsler e TRI no presente estudo), e da variedade das amostras, as evidências são fortes o suficiente para iniciar um processo amplo de investigação sobre um possível aumento do desenvolvimento gráfico infantil na população infantil brasileira. Para tanto, se faz necessário primeiro aperfeiçoar a qualidade psicométrica do instrumento. O presente estudo pretendeu caminhar nessa direção.
Referências
Abou-Jamra, C. C. & Castilho, M. T. U. R. (1987). Testes de Colúmbia, Raven-escala especial, INV e Goodenough. Em M. Ancona-Lopez (Org.), Avaliação da inteligência (pp. 1-61). Vol 20-II. São Paulo: EPU.
Almeida, R. M. (1959). Um estudo do status mental em um grupo de crianças nordestinas de idade escolar.Boletim de Psicologia, 38, 35-55.
Alves, I. C. B. (1981). O teste Goodenough-Harris em pré-escolares paulistanos. Boletim de Psicologia, 33(80), 40-52.
Embretson, S. E. & Reise, S. (2000). Item response theory for psychologists. NJ: Erlbaum Publisher.
Hambleton, R. K. & Jones, R. W. (1993). Comparison of classical test theory and item response theory and their applications to test development. Educational Measuremente: Issues and Practice, 12(3), 38-47.
Kamphaus, R. W. & Pleiss, K. L. (1991). Draw-a-Person techniques: Tests in search of a construct. Journal of School Psychology, 29(2), 395-401.
Lessa, L. M. P. (1953). Estudo da escala de Goodenough. Arquivos Brasileiros de Psicotécnica, 5(4), 107-122.
Muraki, E. & Bock, R. D. (1997). PARSCALE: Parametric scaling of rating data. Chicago: Scientific Software International.
Pasquali, L. (1999). Instrumentos psicológicos: Manual prático de elaboração. Brasília: LabPAM/IBAPP.
Samejima, F. (1997). Graded response model. Em W. J. Van der Linders & R. K. Hamblenton (Orgs.), Handbook of Modern Item Responde Theory (pp. 85-100). Nova Iorque: Springer.
Van Kolck, O. L. (1981). Técnicas de exame psicológico e suas aplicações no Brasil: Testes de aptidão.Petrópolis: Vozes.
Wechsler, S. (2000). O desenho da figura humana. Avaliação do desenvolvimento cognitivo infantil. (2ª ed.) Campinas: Livro Pleno.
Wechsler, S. (2003). DFH III: O desenho da figura humana: Avaliação do desenvolvimento cognitivo de crianças brasileiras (3ª ed.). Campinas: LAMP/PUC.
Zausmer, A. (1954). Um estudo sobre o teste de Goodenough num grupo de pré-escolares de São Paulo.Arquivos Brasileiros de Psicotécnica, 6(4), 37-55.
1 Agradecimentos à psicóloga Andréia Pereira pela coleta de dados na cidade de Campo Grande, MS.
2 Endereço: Universidade Federal de Minas Gerais, Av. Antonio Carlos 6627, Laboratório de Avaliação das Diferenças Individuais, Gabinete 4042, Belo Horizonte, BH, Brasil 31270-901. E-mail: carmencita@fafich.ufmg.br
Artigo original: