Sesión de psicólogo

LA EVALUACIÓN

PSICOLÓGICA

IMPORTANCIA DE LA MEDICIÓN EN PSICOLOGÍA

La meta de la psicología, como la de cualquier ciencia empírica, es la creación de leyes o principios generales para explicar y predecir los fenómenos que estudia, esto es, pretende la descripción, explicación y predicción del comportamiento de las personas. Para lograr este objetivo, como señala Torgerson (1958, citado en Martínez, 1996), la psicología debe recoger y comparar datos para establecer correlaciones, ecuaciones, etc., que permitan fundamentar las teorías.

La medida es un componente esencial de este proceso, porque ha permitido que los modelos matemáticos puedan aplicarse a la ciencia psicológica. De acuerdo con Nunnally (1973) y Nunnally y Bernstein (1995), el problema más importante para la psicología es la obtención de métodos adecuados de medición, ya que una teoría sólo puede ser probada si las variables hipotetizadas pueden ser medidas de manera adecuada, es decir, si se pueden establecer relaciones funcionales entre estas variables. Consideran que si una teoría psicológica contiene términos que no pueden medirse adecuadamente (p. ej., atributos postulados como hipótesis, como en la teoría freudiana), será imposible corroborarla, y afirman que los principales progresos en psicología y probablemente en todas las ciencias suceden a un primer desarrollo de los métodos de medición. Como bien mencionan, la psicología no puede progresar más rápido que la medición de sus variables fundamentales. La psicología estudia variables que no pueden medirse en absoluto, sino sólo aproximadamente, ni directamente, pero sí indirectamente, por ejemplo: inteligencia, ansiedad, atención, depresión, dislexia, etc. Decimos que los atributos psicológicos no pueden medirse absolutamente, porque nunca estaríamos seguros de que hemos medido la totalidad de inteligencia de una persona, toda la ansiedad o depresión que presenta, todos y cada uno de los errores de tipo disléxico que podría cometer en lectoescritura, etc.; por el contrario, en las medidas de atributos físicos, podemos estar seguros de que al medir por ejemplo una mesa, medimos totalmente su longitud y que a esa medida proporcionada por el instrumento no le falta nada, está completa. Por otro lado, la longitud de la mesa la podemos medir directamente, colocamos el metro sobre el atributo de manera directa y así obtenemos la medida que deseamos, a diferencia de la inteligencia, la ansiedad o la depresión, en las que a través de indicadores de la conducta de persona, tanto observables (calificaciones, temblor o sudoración en las manos, aislamiento o inexpresividad) como no observables (sus cogniciones cuando resuelva problemas, su percepción de miedo o catástrofe, su baja autoestima), además de su reporte verbal, podemos inferir la presencia de dicho atributo, pero sólo de manera indirecta.

Las experiencias subjetivas, sentimientos, sensaciones y deseos no pueden ser observados directamente y por lo tanto no pueden someterse a medición, pero cuando un sujeto formula un juicio, enuncia una preferencia o simplemente habla con otros acerca de sus experiencias subjetivas, esta conducta o reporte verbal satisface los requisitos de la investigación científica y la medición se vuelve posible. La ventaja principal de la medición es que erradica conjeturas sobre lo que observamos o escuchamos. Por ejemplo, si como psicólogos atendemos a un paciente y, en función de lo observado y sus respuestas en la entrevista, planteamos la hipótesis de que tiene depresión, en primer lugar tendríamos que verificar si en verdad la tiene —que no es fatiga, ansiedad, tristeza, falta de alegría o cualquier otro problema— y una vez verificado que es depresión, nos interesaría saber qué tanta depresión tiene o en qué grado: leve o moderada, en suficiente cantidad para ameritar tratamiento, grave como para estar en riesgo de suicidio, además, nos interesaría saber también cómo se manifiesta su depresión: su estado de ánimo, problemas de socialización, baja autoestima, preocupaciones, sentimientos de culpa, pérdida de energía, problemas de sueño y apetito, ideación suicida, etc.; lo primero es establecer un diagnóstico, lo segundo, una clasificación. Si no tenemos un instrumento que nos ayude a medir depresión, no podemos contestar las cuestiones planteadas; como menciona Meehl (1954, citado en Miller, 1983), una vez que se ha planteado una hipótesis, hay que someterla a los cánones habituales de la inferencia y ponerla a prueba mediante los criterios científicos usuales de la evidencia y la probabilidad y, para poder hacer esto, necesitamos un instrumento de medición. Del mismo modo, un instrumento de tal tipo nos ayudaría no sólo a identificar la depresión y clasificarla, sino también a tomar una decisión sobre la intervención más adecuada y, terminado el tratamiento, corroborar que efectivamente el problema fue eliminado o significativamente aminorado, es decir, verificar la predicción y comprobar el cambio.

¿Qué medimos en psicología?

La respuesta más sencilla a esta pregunta es: lo que medimos en psicología es la conducta, el comportamiento. Pero esta respuesta no nos dejaría satisfechos, ya que, por ejemplo, no tiene el mismo nivel de dificultad medir una conducta como "fumar" o "hacer berrinche" (que son conductas observables), que conductas tales como "nerviosismo", "estudiar", "estar triste", "bajo rendimiento" o "problema de aprendizaje". En realidad, no podemos medirlas de manera directa ni absoluta, entonces, más que conductas, lo que medimos son "atributos de la conducta", más precisamente, "atributos psicológicos". Por otra parte, aunque una conducta como "fumar" sea fácilmente medible, a la psicología le interesaría primordialmente el componente psicológico de la conducta de fumar, ya que ésta tiene otros componentes: biológico, fisiológico o motor; así, de la conducta de fumar, nos interesaría el componente psicológico o atributo psicológico, por ejemplo: la dependencia psicológica hacia el cigarrillo, las cognitivas que el sujeto presenta tanto cuando se va a fumar el cigarro como cuando no puede hacerlo, otras conductas que desencadenan la conducta de fumar, las consecuencias tanto agradables como aversivas de fumar, etc. Para que quede un poco más clara la distinción entre medir un objeto o un atributo, digamos que cuando medimos una mesa (un objeto físico), más que la mesa como tal, medimos ciertos atributos de ella: largo, ancho, altura; del mismo modo, cuando medimos personas o comportamientos, no lo hacemos absolutamente, sino sólo ciertos atributos psicológicos que nos interesan: motivación, ansiedad, depresión, inteligencia, afrontamiento, personalidad, bajo rendimiento, problema de aprendizaje, dislexia, etc. Sin embargo, a diferencia de la mesa —cuyos atributos largo, ancho o altura los podemos medir directa y absolutamente por medio de un instrumento que mida longitud—, muchos de los atributos psicológicos no los podemos medir ni directa ni absolutamente, sino sólo indirectamente y de manera aproximada, por eso se habla de que los atributos psicológicos se miden mediante indicadores, esto es, instrumentos que nos van a mostrar indirectamente una muestra del atributo que pretendemos medir. Por ejemplo, si intentáramos medir el problema de aprendizaje de un niño catalogado como disléxico, no podríamos medir la dislexia directamente, pero sí una muestra de la clase y el número de errores disléxicos que presenta en lectura, copia y dictado (omisiones, inserciones, errores de secuenciación, confusión por la dirección de los rasgos que forman las letras, etc.), y las consecuencias que estos errores tienen en su aprovechamiento escolar, en sus conductas motoras (agresividad, hiperactividad), en sus emociones y cogniciones (baja autoestima).

¿Qué es la medición?

El objetivo de la medición en psicología es determinar cuánto está presente de un atributo en determinada persona, y esto requiere una expresión numérica de la cantidad. En el nivel más bajo de cuantificación, la medición se ocupa de la presencia o ausencia del atributo; en el nivel intermedio, determina si se posee más o menos cantidad del atributo medido, y, en el nivel más alto, qué tanto se posee del atributo y si se pueden cuantificar las diferencias presentadas en él. Para Lord y Novick (1968, citado en Martínez, 1996, p. 17), la medición es "...un procedimiento para la asignación de números (puntuaciones, medidas) a propiedades específicas de unidades experimentales, de modo que las caractericen y preserven las relaciones especificadas en el dominio comportamental"; según Stevens (1951, op. cit., p. 22), medida es "...la asignación de números a objetos o sucesos según ciertas reglas"; para Nunnally (1973, p. 23), la medición "...consiste en un conjunto de normas para asignar números a los objetos de modo tal que estos números representen cantidades de atributos". De esta manera, la medición se ocupa del mundo real en términos de propósitos, operaciones y validez. El propósito es cuantificar y clasificar los atributos de las personas y objetos reales para definir si las propiedades medidas caen en las mismas o en diferentes categorías; las operaciones tienen como objetivo obtener medidas de acuerdo con un conjunto de normas, y la validez o utilidad de una medida depende siempre del carácter de los datos empíricos (Nunnally, 1973; Nunnally y Bernstein, 1995).

Lo que medimos no son las personas ni los objetos, sino ciertos atributos de ellos; así, el término atributo se refiere a características determinadas y particulares de los objetos. Al respecto, Nunnally (1973) y Nunnally y Bernstein (1995) mencionan que hay que considerar cuidadosamente la naturaleza del atributo antes de medirlo, ya que es posible que no exista, o al menos no en la forma propuesta, y puesto que la medición en psicología requiere de un proceso de abstracción, es probable que el atributo sí exista, pero esté mal medido o mal definido. En las definiciones se destaca que se emplean números para representar cantidades. La cuantificación se refiere entonces a la asignación de números para informar qué cantidad de un atributo está presente en un objeto; la cuantificación está tan estrechamente ligada al concepto de medición que los dos términos se intercambian con frecuencia. Los procedimientos para asignar números a los atributos medidos deben formularse explícitamente. De esta manera, cualquier conjunto de normas que cuantifique sin ambigüedad las propiedades de los objetos constituye una medida legítima y adquiere el derecho de competir con otras en cuanto a utilidad científica (Nunnally, 1973). Para Nunnally y Bernstein (1995), las normas o reglas son un aspecto importante de la estandarización*. Una medida está estandarizada si: 1) sus reglas son claras, 2) su aplicación es práctica, 3) no requiere de una gran habilidad de los administradores para llevarla a cabo y 4) sus resultados no dependen del administrador específico; sin embargo, también mencionan que hay que considerar que la claridad de la medición no necesariamente garantiza el poder explicativo.

El punto central de la estandarización es que los usuarios de un instrumento determinado deben obtener resultados similares; por ejemplo, podemos decir que una determinada prueba está bien estandarizada si diferentes examinadores obtienen puntajes similares al evaluar a un niño en particular en un momento determinado. Los métodos estandarizados proporcionan resultados numéricos más detallados que los juicios personales, esto es, la comunicación es más sencilla cuando se dispone de medidas estandarizadas. Finalmente, la utilidad de un método de medición se establece en función del grado en que los datos obtenidos:

1) correspondan a un modelo matemático,

2) midan un atributo individual,

3) puedan ser repetibles bajo circunstancias similares,

4) sean válidos en diversos sentidos y

5) produzcan relaciones interesantes con otras medidas científicas (Nunnally y Bernstein, 1995).

Podemos resumir que las medidas estandarizadas son objetivas, ya que nos permiten eliminar las conjeturas sobre lo que observamos o escuchamos, esto es, sobre la observación no científica (un principio clave de la ciencia es que cualquier exposición de hechos realizada por un científico debe ser verificable de manera independiente por otros científicos), facilitar la comunicación, ahorrar tiempo y ayudar a la generalización científica. De esta manera, Martínez (1996) establece que la medida comienza con un procedimiento para identificar los elementos del mundo real con los elementos o constructos del sistema lógico, por medio de una definición semántica precisa; una vez hecho esto, se procede a la medición propiamente dicha, para lo cual deben seguirse los siguientes pasos:

1) identificar el objeto o sujeto que se medirá,

2) identificar la propiedad del objeto o de la conducta que se quiere medir en el sujeto (atributo),

3) seleccionar el instrumento y

4) aplicar una regla de asignación numérica por la que se otorga una cifra a la propiedad de la unidad experimental (objeto o sujeto) que se mide.

 

Cabe señalar que para medir la propiedad o el atributo, debe existir isomorfismo entre las características del sistema numérico y las relaciones entre las diversas cantidades de la propiedad medida. Por ejemplo, si después de una entrevista en una sesión de psicología clínica sospechamos o hipotetizamos, por los síntomas que la persona nos refiere, que presenta ansiedad (aquí estamos realizando los pasos 1 y 2), enseguida seleccionamos un instrumento que mida dicho atributo, por ejemplo el Inventario de Situaciones y Respuestas de Ansiedad de Tobal y Cano (paso 3), y después de aplicarlo obtenemos cuatro medidas de ansiedad en percentiles: ansiedad total, ansiedad cognitiva, ansiedad fisiológica y ansiedad motora (paso 4). En este instrumento psicométrico, al igual que todos los que están publicados, existe isomorfismo entre las cantidades obtenidas en su aplicación y la manifestación del atributo medido, en este caso, a mayor puntuación, mayor ansiedad y viceversa. Para hablar de isomorfismo, tenemos que remitirnos al concepto de escalamiento. El escalamiento es el desarrollo de reglas sistemáticas y de unidades significativas de medida que nos permiten cuantificar las observaciones empíricas; de esta manera, se establece una escala de medición cuando se define el conjunto de valores posibles que pueden asignarse y, lo más importante, se determina la regla de asignación que establece la correspondencia entre el sistema empírico (lo que vamos a medir) y el sistema numérico (Martínez, 1996). La teoría del escalamiento o teoría representacional de la medición de Stevens (1951, citado en Martínez, 1996) gira en torno a tres grandes áreas: representación, unicidad y significación. 1. El problema de la representación. La medición debe encontrar un sistema relacional numérico, con una estructura semejante al sistema relacional empírico que se pretende medir, es decir, el sistema relacional numérico puede representar al sistema relacional empírico porque hay isomorfismo entre las propiedades medidas en el segundo con las propiedades numéricas del primero.

 

El sistema relacional numérico está conformado por las escalas de medición nominal, ordinal, de intervalo y de razón. La escala nominal es el nivel más elemental de medición, agrupa las características que se medirán en subconjuntos o clases (el atributo puede estar o no presente) y sólo usa los números para clasificar los objetos (1: hombre; 2: mujer). En la escala ordinal, observamos diferentes grados de un atributo y se establece una relación de mayor y menor cantidad de esa propiedad (puntuaciones de depresión: sujeto A centil 8o; sujeto B centil 6o; sujeto C centil 4o; podemos entonces decir que A>B>C en cuanto a depresión, pero no que la diferencia entre la depresión de A y B sea la misma que entre la de B y C, ni que A tenga el doble de depresión que C). Las escalas de intervalo y razón indican no sólo un orden decreciente o creciente en la magnitud del atributo medido, sino que las diferencias de ésta son iguales a los intervalos entre los números asignados a dichas características, sin embargo, en la escala de intervalo no existe un cero absoluto, es decir, el numeral cero no indica ausencia de la característica medida; un ejemplo de escala de intervalo es la medición de la inteligencia, donde si un individuo obtuviera un CI de o esto no significaría ausencia de inteligencia. Cuando sí existe un cero absoluto, esto es, ausencia de la característica medida, la escala se llama de razón. Por ejemplo, una persona pesa loo kg al iniciar un tratamiento de reducción de peso, un año después pesa 75 kg y dos años más tarde, 5o kg; la diferencia entre el primer y el segundo año es igual a la que se dio entre el segundo y el tercero: 25 kilogramos, al iniciar el tratamiento pesaba el doble que al finalizar. Cero kg indica ausencia de la característica, como podría haber sido si de una medición a otra hubiera conservado el mismo peso, esto es, hubiera bajado cero kg.

El problema de la unicidad se refiere a que los números elegidos arbitrariamente para ser asignados en la medición pueden cambiarse por otros, siempre y cuando no se modifiquen las relaciones numéricas que representan las relaciones empíricas (p. ej., 1: hombre, 2: mujer, no cambia la información si se cambia por: 1: mujer, 2: hombre).

 

El problema de la significación tiene que ver con la validez de una conclusión empírica inferida a partir de una conclusión numérica es decir, si la propiedad a medir existe o no existe, si se presenta mayor o menor cantidad del atributo y si se pueden cuantificar esas diferencias que se presentan; plantea además los estadísticos admisibles para cada tipo de escala (p. ej., los números de la escala nominal no se pueden sumar, ni tampoco los de la escala ordinal, pero sí los de las escalas de intervalo y de razón). Adentrémonos ahora en una de las técnicas de medición más usadas por la psicología: las pruebas psicológicas, las cuales, como ya vimos en los capítulos anteriores, se empezaron a gestar con Galton, Cattell les dio nombre y apellido (test mental) y Binet elaboró la primera prueba considerada como psicométrica. Estos autores contribuyeron, conjuntamente con la psicología experimental, a echar por tierra la predicción de Kant de que (citado en Nunnally, 1973, p. 2o): "...la psicología nunca será una ciencia porque sus datos básicos no pueden observarse ni medirse". 


PRUEBAS PSICOLÓGICAS 


Las pruebas psicológicas son sólo una técnica, entre muchas, de medición en psicología; les dedicamos un apartado porque precisamente los dos últimos capítulos de esta obra están dirigidos a exponer su selección, aplicación, calificación e interpretación. 


Test es una palabra inglesa que significa prueba, reactivo, ensayar, probar o comprobar; este término tiene su origen a su vez en la raíz latina testis, que figura en palabras como testigo y testimonio. La suposición implícita desde el punto de vista psicométrico es que las pruebas miden las diferencias individuales en cuanto a algún rasgo o atributo —si suponemos que todas las personas poseen la característica medida en diferentes cantidades— y su propósito es estimar esa cantidad. Se han propuesto varias definiciones de la palabra test, que nosotros traducimos en nuestro idioma como "prueba"; algunas de ellas son: Para Anastasi (1977, p. 21), una prueba psicológica constituye esencialmente una medida objetiva y tipificada de una muestra de conducta. Brown (1980, p. 6) define una prueba como un procedimiento sistemático para medir una muestra de conducta. De acuerdo con Fernández-Ballesteros (1996, p. 139), la prueba es un instrumento sistemático y tipificado que permite la comparación de un sujeto con un grupo normativo. Para Hogan (2004, p. 3o), una prueba es un proceso o instrumento estandarizado que genera, en forma cuantificada, información sobre una muestra de comportamiento o proceso cognitivo. Gregory (2001, p. 36) menciona que una prueba es un procedimiento estandarizado para tomar una muestra de conducta y describirla en categorías o puntuaciones, la mayor parte con normas o estándares, con base en los cuales pueden utilizarse resultados para pronosticar otras conductas más importantes. Para Yela (1980, citado en Martínez, 1996, p. 32), una prueba es una situación problemática previamente dispuesta y estudiada a la que el sujeto ha de responder bajo ciertas instrucciones y de cuyas respuestas se estima, en comparación con las respuestas de un grupo normativo (o un criterio u objetivo), la calidad, índole o grado de algún aspecto de su personalidad. Garaigordobil (1998, p. 23) dice que "prueba" se refiere a una situación controlada, en la que se recogen muestras de conducta de sujetos que responden a ciertos estímulos. Estas respuestas son puntuadas o valoradas según algunos criterios y ofrecen información del lugar que ocupa el sujeto dentro de un grupo de referencia normativo.

 

Estas definiciones nos ayudarán a desglosar las principales características que debe poseer una prueba psicológica: medida objetiva, muestra de conductas, técnica sistemática, establecimiento de normas de comparación y predicción o inferencia (Martínez, 1996; Garaigordobil, 1998; Gregory, 2001; Hogan, 2004).

 

Medida objetiva. Implica precisión en la medida; hace posible que dos evaluadores independientes que siguen las instrucciones de la prueba tengan el mismo resultado. Así pues, la aplicación, la puntuación y la interpretación de las puntuaciones son objetivas en cuanto son independientes del juicio subjetivo de un examinador en particular. Muestra de conductas. Las pruebas no pueden medir de manera absoluta un atributo, sino sólo aproximadamente, son una muestra limitada de las conductas que representan el dominio conductual del atributo que se medirá. Una prueba es una muestra de todos los reactivos posibles a partir de las cuales se establecen predicciones en función de que se emplea una muestra representativa del atributo de interés. En este sentido, la muestra de conducta será útil sólo cuando permita al examinador realizar inferencias acerca del dominio total de conductas relacionadas. Técnica o procedimiento sistemático. Se refiere a la noción de estandarización o tipificación. El procedimiento estandarizado es una característica esencial de cualquier prueba psicológica y supone uniformidad de procedimientos en la aplicación y puntuación de la misma. La prueba siempre se aplica a los diferentes sujetos bajo las mismas condiciones establecidas en el manual; así, una prueba se construye, se administra y califica según reglas preestablecidas. Si van a compararse las puntuaciones obtenidas por varios sujetos, las condiciones de aplicación de la prueba deben ser las mismas para todos.

 

La tipificación o uniformidad se extiende a los materiales empleados, los límites de tiempo, las instrucciones orales a los sujetos, las demostraciones previas, las formas de resolver las dudas planteadas y todos los demás detalles de la situación de la prueba. Se considera que una prueba está estandarizada si los procedimientos para su aplicación son uniformes de un examinador a otro y de un ambiente a otro. Otro paso importante en la tipificación de una prueba es el establecimiento de normas, ya que sin ellas es imposible interpretar las puntuaciones obtenidas. Las pruebas psicológicas no tienen modelos predeterminados de clasificación de las puntuaciones, por lo que la puntuación de un individuo sólo puede valorarse cuando se compara con las de otros. Como su nombre lo indica, una norma es la actuación media o normativa, así pues, las pruebas psicológicas se basan en normas establecidas empíricamente: las respuestas dadas por un sujeto a una prueba se comparan con las de un grupo normativo, con el propósito de clasificar su actuación en el atributo medido con respecto al grupo de comparación. De esta manera, una prueba psicológica permite la derivación de puntuaciones o categorías. Thorndike (1918, citado en Gregory, 2001,) expresó el axioma esencial de las pruebas: "Aquello que existe de alguna manera, existe en cierta cantidad". McCall (1939, citado en Gregory, 2001) fue un paso más allá al declarar: "Cualquier cosa que existe en cierta cantidad puede medirse". Toda prueba suministra una o más puntuaciones o proporciona evidencia de que una persona pertenece a una u otra categoría. En pocas palabras, las pruebas psicológicas resumen la ejecución de las personas en números o clasificaciones. Predicción o inferencia. La aplicación de una prueba implica hacer inferencias o predicciones futuras fundamentadas en la ejecución observada del sujeto en la prueba. Una vez que hemos clarificado los conceptos sobre medición, medición psicológica y pruebas, podemos finalmente abordar tres conceptos clave en la evaluación psicológica: testing, psicodiagnóstico y evaluación psicológica.
 

cattell-psicologos-tests-diagnostico.jpg

TESTING

Una de las consecuencias de las dos guerras mundiales fue la proliferación de pruebas psicológicas, en ninguna otra época se había llevado a cabo un programa tan grande de construcción de pruebas. A decir de Pelechano (1988, citado en Garaigordobil, 1998), surge entonces un grupo de psicólogos que argumentaba que para a aceptar algo como científico debería expresarse en números, a la vez que otro grupo de psicólogos rechazaba radicalmente todo lo que significara expresión numérica. Fernández-Ballesteros (1996) menciona que a esta disciplina de expresarlo todo con números se le llegó incluso a denominar testing, esto es, testing se refiere a la mera aplicación de pruebas con el propósito de adjudicarle un número o asignarle una clasificación al individuo al que se le está aplicando la prueba; la aplicación de pruebas no como un medio de obtener más información, sino como el fin último del proceso.

De esta manera, testing se refiere únicamente a un procedimiento mecánico, tipificado, cuantitativo y objetivo, mientras que evaluación es un proceso complejo que comprende desde el planteamiento del problema hasta la emisión de un juicio o toma de decisiones; la evaluación psicológica no sólo se limita al uso de pruebas como técnica de medida, sino que utiliza también otras técnicas como la entrevista, observaciones, registros psicofisiológicos, etc. Por lo tanto, testing no es lo mismo que evaluación; la mera aplicación de pruebas no tiene sentido, no es un fin sino un medio; ningún psicólogo aplica una prueba sólo por el gusto de aplicarla y obtener una medida de algo, la aplicación de pruebas es sólo una técnica justificada para obtener una medida de un atributo relevante dentro de un proceso evaluativo. Como bien señala Garaigordobil (1998), la crítica al testing de medir por medir y a las evaluaciones psicométricas sin objetivos específicos surge cuando no se tiene un conocimiento amplio de un marco de relaciones en donde se inserte la medida, lo cual la deja sin valor.

PSICODIAGNÓSTICO

Históricamente, el término psicodiagnóstico, fue utilizado por primera vez en 1921 por Rorschach, quien tituló así su obra donde presenta la Prueba de las Manchas de Tinta (Psychodiagnostik). Etimológicamente, diagnóstico proviene del griego diagignosko, que a su vez procede del latín gnoscere, y significa aprender a conocer, tener conocimiento, entender algo, conocer a fondo o en profundidad. El Diccionario de la Real Academia Española (2001) subraya el carácter médico del término diagnóstico y lo define como el arte o acto de conocer la naturaleza de una enfermedad mediante la observación de sus síntomas y signos. En psicología, el concepto de psicodiagnóstico, quizá por su herencia médica, se ha asociado prioritariamente a la clínica y al estudio de las patologías psicológicas o enfermedades mentales:

La definición dada del psicodiagnóstico en su acepción tradicional hace referencia al sentido médico-psiquiátrico del término, ya que se plantea como objetivo exclusivamente la clasificación taxonómica. Es un diagnóstico dirigido a la exploración de aspectos psicopatológicos, negativos o deficitarios del funcionamiento psicológico, y la aplicación de instrumentos tiene por finalidad complementar, corroborar y medir aquellas tendencias que, según la experiencia práctica de los clínicos, son de mayor significación. (Garaigordobil, 1998, p. 25).

Para Pelechano (1988, citado en Garaigordobil, 1998), el término psicodiagnóstico tiene claras connotaciones médico-psiquiátricas: • La conducta observable no posee una entidad que se agote a sí misma como síntoma de algo • Predomina lo cualitativo frente a lo cuantitativo, un tipo de conocimiento situado entre la opinión y la ciencia, basado principalmente en la experiencia del diagnosticador • Se utiliza un método que consiste básicamente en una interacción verbal y no verbal entre el psicodiagnosticado y el psicodiagnosticador • Se pretende no sólo estimar el estado actual del sujeto (se enfoca sobre lo patológico), sino que también intenta formular un juicio pronóstico • Predomina la observación y el registro para identificar la alteración psicológica y posteriormente llevar a cabo el tratamiento Sin embargo, si bien sus comienzos denotaban la identificación de alteraciones psicopatológicas, en la actualidad el término sigue vigente y se le usa tanto como sinónimo de evaluación psicológica como para identificar el problema psicológico del sujeto evaluado, o bien, su clasificación. En este libro los vamos a considerar como sinónimos (a menos que se especifique que únicamente nos interesa la detección y/o clasificación), aunque preponderantemente utilizaremos el de evaluación psicológica.

EVALUACIÓN PSICOLÓGICA

De acuerdo con Garaigordobil (1998), el término inglés assessment aparece por primera vez en 1948, en el libro Assessment of Men, donde se describen las actividades realizadas por la Sección de Psicología de la Oficina de Servicios Estratégicos de los Estados Unidos, encabezada por Murray; en esa obra se utiliza el término de evaluación en vez de psicodiagnóstico, pues se deja de lado la detección de aspectos patológicos, y en su lugar se enfatizan los aspectos positivos y de desarrollo potencial del ser humano. Otro momento del auge del término fue durante los años sesenta, con la aparición, dentro de la psicología conductual, de la disciplina de la evaluación conductual como una alternativa al diagnóstico nosológico psiquiátrico y como respuesta a las necesidades surgidas a partir de la modificación y terapia de la conducta, que enfatizaba que debería haber una estrecha relación entre la evaluación y el tratamiento, ya que la información obtenida en la evaluación permitiría tomar decisiones encaminadas al cambio o la modificación de la conducta (evaluar para intervenir y evaluar a su vez el tratamiento). Así, se definía a la evaluación conductual como la alternativa a la evaluación psicológica, cuya meta es la identificación de las conductas objeto de estudio motoras, fisiológicas y cognitivas, así como de las variables ambientales y/o personales que las mantienen o controlan, con el objetivo último de planear la intervención (Fernández-Ballesteros, 1994). En un sentido estrecho, la evaluación en psicología consiste en diagnosticar, es decir, detectar la presencia de un estado, un conocimiento, una patología, etc., de acuerdo con el campo donde se esté evaluando. En un sentido amplio, el término evaluación no se restringe sólo al diagnóstico, sino a todo un proceso cuya meta consiste en identificar, rotular, seleccionar, plantear objetivos, intervenir, pronosticar y evaluar si los objetivos planteados se alcanzaron; su finalidad estriba sobre todo en su utilidad para la toma de decisiones. Así, la evaluación psicológica no se conforma únicamente con aplicar algún tipo de prueba o instrumento para conocer el estado actual de un sujeto o grupo de sujetos en cuanto a algún atributo o problema psicológico, sino que va más allá, y éste sólo sería el primer paso de un proceso que involucra una toma de decisiones que comprende, a su vez, seleccionar y plantear objetivos de terapia, seleccionar las técnicas y estrategias para la intervención, evaluar continuamente para constatar que los objetivos planteados se van alcanzando, así como para detectar posibles problemas en su consecución y evaluar para conocer si las metas finales se alcanzaron.

 

De este modo, la evaluación no representa un fin en sí misma, más bien persigue un objetivo eminentemente práctico y como tal está al servicio de la disciplina: su objetivo fundamental no es la explicación, sino la búsqueda de medidas prácticas de intervención. La evaluación psicológica entraña un concepto muy importante: las inferencias, basadas en las respuestas que se dan en la situación de evaluación. Como mínimo, el proceso de evaluación supone que la conducta que se evaluará mediante algún instrumento específico es una muestra de los repertorios de conducta que el evaluado posee; representa lo que el individuo ha aprendido como resultado de su interacción con el entorno social. Sin embargo, así como no todas las evaluaciones son iguales, tampoco lo son sus fines. Al respecto, podemos considerar que dentro del proceso de evaluación psicológica existen estrategias selectivas y estrategias modificativas. Dentro de las primeras se busca la optimación mediante la selección adecuada de personas —en determinadas condiciones, se debe elegir a los individuos con un criterio de ejecución o clasificarlos de acuerdo con dicho criterio— o de condiciones —se parte de unos individuos concretos y la estrategia consiste en buscar las condiciones idóneas que mejor se adapten a cada uno de ellos según el criterio de optimación. Un ejemplo representativo de este tipo de estrategias es el que se realiza en psicología organizacional, ya sea buscando a las personas que cumplan el "perfil" de un determinado puesto, o bien, instalar a las personas en un trabajo específico según sus habilidades, competencias y aptitudes. Por otra parte, en la estrategia modificativa se busca la optimación por medio de la modificación de las conductas de las personas y de las condiciones. Esta estrategia es eminentemente clínica y educativa; una vez evaluada la persona, los objetivos irán encaminados a revertir, minimizar, modificar o eliminar el problema detectado.

 

Dentro de esta última estrategia se debe considerar que para que sea útil debe proporcionar los elementos suficientes para determinar el método modificativo en cada caso concreto y así verificar la efectividad del mismo una vez utilizado (Pawlik, 198o). El objetivo final que persigue toda evaluación es la toma de decisiones, la cual presupone la existencia de alternativas entre las cuales hay que elegir; así, se podría considerar entonces a la intervención psicológica como todo aquello que al final de un proceso evaluativo se puede implementar. En las tres últimas décadas, el término de evaluación psicológica ha irrumpido con mucha fuerza dentro del campo de la psicología, y ha dejado de lado tanto las concepciones originales del psicodiagnóstico —con sus claras connotaciones médico-psiquiátricas dirigidas fundamentalmente a la detección de aspectos psicopatológicos o deficitiarios del funcionamiento psicológico— como las reduccionistas de la evaluación conductual, que si bien intentaron identificar conductas objeto de estudio motoras, fisiológicas y cognitivas, así como las variables ambientales y personales que las mantienen y controlan, en muchas ocasiones sus planteamientos radicales pretendían tener la exclusividad de la evaluación y rechazar cualquier otra. A este respecto, y ya que la evaluación psicológica es un proceso complejo que va desde el planteamiento del problema hasta la recomendación de soluciones y la toma de decisiones, estamos completamente de acuerdo con Silva cuando señala que ninguna perspectiva, estrategia, procedimiento o técnica tiene la exclusiva ( (1983, citado en Garaigordobil, 1998).

 

En el proceso de evaluación psicológica se distinguen dos fases: la primera es la identificación de los atributos que se medirán de acuerdo con el objetivo planteado por la evaluación, la segunda es la selección y el diseño de técnicas confiables y válidas para medir y evaluar esos atributos; su objetivo primordial es el análisis científico de la conducta humana para poder llegar a su descripción, nosología, comprensión, análisis, explicación y predicción. Para Pelechano (1988, citado en Garaigordobil, 1998), la evaluación psicológica es un concepto multidimensional, ya que se puede evaluar más de un atributo si así se considera necesario (multirrasgo), utilizar para tal fin más de un método de obtención de información (multimétodo), recoger información de más de una fuente (multifuente) y participar a veces más de un evaluador (multijueces). Por ejemplo, a un niño con bajo rendimiento académico y con problemas de socialización, se puede considerar necesario aplicarle una prueba de inteligencia, otra para medir sus habilidades de interacción social y otra para descartar ansiedad; además, se puede contemplar realizar una entrevista con el propio niño, revisar sus cuadernos, y pedirle a otro evaluador que lleve a cabo observaciones en vivo en el salón de clases y a la hora del recreo para tener más datos acerca de su interacción con compañeros; entrevistar también a su profesor e incluso pedirle que nos conteste una prueba que califique la socialización del niño.

 

Por su parte, Forns (1985, citado en Garaigordobil, 1998) plantea algunas reflexiones importantes sobre la evaluación psicológica. Considera al sujeto evaluado como un ser biológico y sociocultural —que se mueve en diversos ambientes que condicionan y reactivan su conducta—, activo, interactuante y normalmente capaz de autorregulación. En este caso, el proceso de evaluación psicológica se encaminaría hacia el logro de un mejor desempeño autorregulador. Llegamos por fin a la definición de evaluación psicológica que nos parece más completa, la planteada por Fernández-Ballesteros (1996): La evaluación psicológica es una disciplina de la psicología científica que se ocupa de la exploración y análisis del comportamiento de un sujeto o un grupo de sujetos —a los niveles de complejidad que se estime oportunos, como podrían ser el motor, el fisiológico y/o el cognitivo-, con distintos objetivos aplicados y de investigación (detección, diagnóstico, descripción, clasificación, selección, explicación, predicción, tratamiento o intervención, valoración), por medio de la aplicación de diferentes dispositivos, pruebas y técnicas de medición y evaluación, cuya finalidad última es la toma de decisiones.

 

Actualmente, se considera a la evaluación psicológica tanto una rama de la psicología como una disciplina en sí misma, con objetivos básicos y de investigación, dedicada al análisis científico de la conducta humana en los diferentes niveles de complejidad y contextos en que se desarrolla, cuya meta es la toma de decisiones para la intervención. En esta definición, como lo menciona Silva (1983, op. cit.), ninguna perspectiva, estrategia, procedimiento o técnica, tiene la exclusiva. En evaluación psicológica, para poder utilizar las pruebas psicológicas de manera acertada, eficiente y ética, debemos conocer los fundamentos psicométricos que las sustentan, tanto para seleccionar las pruebas que vamos a utilizar en la evaluación de una persona según el propósito que persigamos con su aplicación como para poder interpretar adecuadamente los resultados de su ejecución, lo cual es el tema del siguiente capítulo. 

PRIMERA ACTIVIDAD DE APRENDIZAJE

Desarrolle el siguiente cuestionario y remita sus respuestas por correo electrónico a más tardar el día 4 de enero

1.- ¿Qué es la medida en psicología? 

2.- ¿Porqué se considera a la psicología como una ciencia empírica?

3.- ¿Qué atributos del individuo estudia la psicología y cuál es la diferencia entre atributos y conducta?

4.- ¿Cuáles son los criterios de medición que establecen la utilidad de un método?

5.- ¿En qué consiste el problema de unicidad y en qué el problema de la significación? 

6.- ¿En qué consiste el testing?

7.- ¿Cuáles son las connotaciones médico-psiquiátricas que se le atribuyen al psicodiagnóstico?

8.- ¿Qué son las interferencias durante la evaluación psicológica?

9.- ¿En qué consiste la estrategia modificativa?

10.- ¿En qué consisten las fases que se presentan en el proceso de evaluación psicológica?

FUNDAMENTOS PSICOMÉTRICOS DE LA EVALUACIÓN PSICOLÓGICA

Así como en las ciencias físicas la elaboración de instrumentos se deriva de la teoría en la que están inmersos y de una tecnología que permite medir sus objetos de estudio, los instrumentos de evaluación psicológica responden a una teoría de la medida; como menciona Martínez (1996), los instrumentos de medición psicológica necesitan demostrar su utilidad y validez científica. En psicología, la psicometría es la que garantiza que los instrumentos de medición elaborados cuenten con las garantías científicas para su uso. La psicometría es el conjunto de métodos, técnicas y teorías implicados en la medición de variables psicológicas; estudia las propiedades métricas exigibles en las mediciones psicológicas y establece las bases para que éstas se realicen de manera adecuada. El objetivo de la psicometría es proporcionar modelos para transformar los hechos en datos con la finalidad de asignarles valores numéricos a los sujetos, sobre la base de sus respuestas (Muñiz, 2003).

 

En este capítulo estudiaremos cuáles son los fundamentos psicométricos que caracterizan a la evaluación psicológica; para tal fin, presentaremos la definición de psicometría y una breve reseña histórica de su nacimiento; abordaremos la teoría clásica de las pruebas; expondremos las garantías científicas que toda prueba debe poseer: confiabilidad y validez; intentaremos una clasificación de las pruebas y, finalmente, explicaremos cuáles son los diferentes tipos de puntuaciones que nos proporcionan las pruebas y su interpretación. 


DEFINICIÓN Y BREVE RESEÑA HISTÓRICA 

En general, la psicometría trata de todo aquello relacionado con la medición psicológica; en particular, y lo que la hace diferente de otras disciplinas psicológicas, es que se especializa en las propiedades métricas que dichas mediciones deben poseer, independientemente del campo de aplicación y de los instrumentos utilizados; su objetivo es proporcionar modelos matemáticos para poder transformar los hechos en datos, con la finalidad de poderles asignar números a las respuestas dadas por los sujetos en la evaluación realizada. Para Muñiz (2003), el nacimiento de la teoría de las pruebas se origina con los trabajos de Spearman, en 1904, acerca de su teoría de los dos factores de la inteligencia, y en 1907, cuando acuña conjuntamente con Krueger el término coeficiente de confiabilidad, para establecer así los fundamentos de la teoría de las pruebas. El objetivo central que Spearman perseguía era encontrar un modelo estadístico que explicase adecuadamente las puntuaciones obtenidas en las pruebas y permitiera la estimación de los errores de medida implícitos en todo proceso de medición. También, en 1904, Thorndike publica el libro Introduction to the Theory of Mental and Social Measurements (Introducción a la teoría de la medición mental y la medición social). A partir de esas publicaciones, se desarrolló una creciente actividad en el campo de la psicometría, tanto en la teoría como en la construcción y tecnología de las pruebas (Muñiz, 2003):

• En 1931, Thurstone publica su libro "The Realibility and Valididy of Tests (Confiabilidad y validez de las pruebas).

• En 1936, se funda la Sociedad Psicométrica Americana, bajo la dirección del mismo Thurstone, quien crea también la revista que publicará a partir de esa fecha todo lo relacionado con la psicometría: Psychometrika; asimismo, en ese año, Guilford publica su libro Psychometric Methods (Métodos psicométricos).

• En 1946, Stevens da a conocer su trabajo sobre las Escalas de Medición (nominal, ordinal, de intervalo y de razón), sus propiedades y rela-ciones, así como sus implicaciones en el uso de las distintas técnicas estadísticas.

• En 1947, Thurstone publica su obra AnálIsIs Factorial Múltiple, en donde desarrolla esta técnica estadística que es utilizada ampliamente en la construcción, análisis y validación de las pruebas.

• En 1950, Gulliksen publica un libro en el que expone y sintetiza todo lo realizado hasta entonces sobre la teoría clásica de los tests: Theory of Mental Tests. 

• En 1954, se editan las primeras recomendaciones técnicas para el uso de las pruebas: Techni-cal Recomendations for Psychological Tests and Diagnostic Techniques. 


Como observamos, la historia de la psicometría es muy reciente, data de apenas hace un siglo. La primera publicación sobre las recomendaciones técnicas para el uso de las pruebas psicológicas tiene poco más de 50 años. A partir de la segunda mitad del siglo XX, la psicometría continúa su desarrollo y tiene un auge en los años ochenta que continúa hasta nuestros días. En la actualidad, existen tanto publicaciones traducidas del inglés como textos en nuestro idioma y cada día se elaboran más pruebas al mismo tiempo que se actualizan y revisan las ya existentes. Entendemos así por psicometría el conjunto de modelos formales que establecen las bases para que se lleve a cabo de manera adecuada la medición de variables psicológicas, con el objetivo de proporcionar los métodos para poder transformar los hechos en datos, mediante la asignación de valores numéricos tanto a las respuestas dadas por los su-jetos como a los estímulos presentes en la situación de prueba, y poder interpretar esos números en función de la teoría sobre la que la prueba descansa. 


TEORÍA CLÁSICA DE LAS PRUEBAS  


Reconocer que toda medida psicológica, al igual que las medidas de las ciencias físicas, contiene un término de error, fue un gran avance para la evaluación psicológica, ya que entonces se empieza a considerar que no basta el juicio humano para determinar los atributos psicológicos, y que los instrumentos de evaluación psicológica deben in-tentar, al igual que los instrumentos de las ciencias físicas, medir con precisión. Al respecto, Martínez (199 6) considera que aunque en todas las ciencias el conocimiento de las propiedades de los instrumentos de medida es fundamental, el psicólogo debe poner más atención en la elaboración de sus instrumentos, ya que los atributos psicológicos no pueden medirse directamente, sino que son constructos teóricos que intentan explicar la conducta humana, por lo que el grado en que un individuo está caracterizado por esos constructos se infiere a partir de observaciones de su conducta. En este mismo sentido, enfatiza que el diseño de instrumentos para medir dichos constructos psicológicos presenta importantes problemas como: 


1. No existe una sola aproximación a la medición de un constructo que sea universalmente aceptada; esto es, siempre existirá la posibilidad de que dos teóricos seleccionen diferentes tipos de conducta para la definición operativa del constructo

2. Las medidas psicológicas se basan en muestras limitadas de conducta; nunca se medirá exhaustivamente la conducta, sino sólo una muestra representativa.

3. La medida obtenida siempre tiene error; una de las principales cuestiones en psicología es estimar ese error

4. Falta de escalas con origen y unidades de medida bien definidas. No siempre una puntuación de cero significa ausencia del atributo medido; por otro lado, también pueden presentarse problemas al interpretar las medidas de acuerdo con la escala en la que están medidos sus datos 5. Los constructos psicológicos no pueden definirse aisladamente en términos de definiciones operacionales únicamente, sino que deben establecer relaciones con otros constructos y con otros fenómenos observables 

 

La teoría de las pruebas tiene que ver con el estudio de los problemas anteriores y con la bús-queda de métodos para su solución. Mientras que la evaluación psicológica pone el acento en los contenidos sustantivos y en la interpretación de las pruebas, la base de la teoría de las pruebas se in-teresa por la adaptación de la estadística y el diseño experimental para dar solución a los problemas ya mencionados. Como ya vimos, la psicometría es una rama relativamente muy joven de la psicología que tuvo su origen en 1904, con los primeros trabajos de Spearman (Martínez, 1996; Muñiz, 2003), quien, influido por Galton y Pearson, buscaba un modelo estadístico que fundamentase las puntuaciones de las pruebas y permitiera la estimación de los errores asociados a todo proceso de medición, por lo que presenta así la primera formulación de la teoría de las puntuaciones verdaderas y el error dentro de un marco correlacional y aplicada a las puntuaciones de las pruebas; a este modelo se le conoce como Modelo Lineal Clásico de Spearman y es el que se usa en la actualidad en la teoría clásica de las pruebas. Muñiz (2003) enfatiza que no hay que perder de vista que el objetivo central de este modelo es la estimación de los errores de medición cuando se utilizan pruebas para medir variables psicológicas, y que la necesidad de un modelo tal proviene del hecho elemental de que los errores no son observables directamente.

 

El valor que se obtiene una vez aplicada la prueba es el valor empírico mezclado con el error cuya cuantía se desea estimar. A partir de este sencillo modelo lineal y del conjunto de supuestos en que se basa, es posible construir pruebas y analizar sus elementos, así como determinar su confiabilidad y validez; este modelo se expresa como: 


X = V + e En donde: X es la puntuación empírica de un sujeto V es la puntuación verdadera y e es el término de error.

 

La puntuación obtenida o empírica de un sujeto en una prueba (X) es igual a la puntuación verdadera (V), que nunca se puede conocer, más el error de medición (e); mientras más confiable sea la prueba y menor sea el error, la puntuación empírica se acercará más a la puntuación verdadera. Además de los errores propios del instrumento de medición, es razonable pensar que la puntuación empírica obtenida por un sujeto no coincida con su verdadera puntuación, ya que cuando se le aplica la prueba, se encuentra afectado por múltiples condiciones que no se pueden controlar y que influirán en su ejecución (fatiga, hambre, sueño, preocupación, nerviosismo, etc.). Si fuera posible lograr que el error fuera cero, entonces y sólo entonces, en ese caso la puntuación empírica sería igual a la puntuación verdadera. Este modelo tiene tres supuestos y varias deducciones derivadas de él. Los tres supuestos son (Muñiz, 2003): 

 

1. La puntuación verdadera de un sujeto (V) es la esperanza matemática de la empírica [E(X)]: V = E(X) La esperanza matemática sería el valor que se encontraría si se aplicara infinitas veces el mismo instrumento al mismo sujeto. Este valor sería el promedio aritmético de las puntuaciones obtenidas en las infinitas aplicaciones, si estimamos que cada aplicación no afectara a las otras y que el sujeto no cambiara en el curso de las aplicaciones. 2. No existe correlación entre las puntuaciones verdaderas de los sujetos en una prueba y sus respectivos errores de medida: p(v, e) = O 

 

Deducciones del modelo: 


1. El error de medida es la diferencia entre la pun-tuación empírica y la verdadera. El modelo lineal establece que: X = V + e Si despejamos e, tenemos que: e = X — V 2. La esperanza matemática de los errores de medida es cero, por lo tanto, son errores insesgados. De la deducción anterior, tenemos que: e = X — V La esperanza matemática del error entonces es: E(e) = E(X) — E(V) Pero como sabemos, por el supuesto 1, que V = E(X) 

 

Según el supuesto 2 del modelo: p(v, e) = O Sustituyendo: coy (V,e) = (0) crvcre = O 
Los supuestos y las deducciones anteriores significan que, de acuerdo con el modelo lineal de la teoría clásica de las pruebas, al aplicar un instrumento elaborado bajo este marco esperaríamos teóricamente que la puntuación obtenida por un sujeto fuera igual a la puntuación verdadera, con un margen de error aleatorio que tendería a ser cero y que no tendría ninguna relación con la puntuación obtenida en la prueba, ni con algún otro instrumento aplicado al mismo sujeto. A nivel empírico, si el instrumento está bien construido, esperaríamos que la puntuación obtenida por el sujeto refleje lo mejor posible su puntuación verdadera y el error de medición sea cercano a cero; de acuerdo con la teoría clásica de las pruebas, esperamos que en la medición de atri
butos psicológicos, la puntuación obtenida por un sujeto en una prueba se acerque lo más posible a su ejecución real con el mínimo posible de errores, esto es, que el instrumento sea confiable para medir el atributo que nos interesa. Así, para poder considerar a un instrumento de evaluación psicológica como adecuado y científico, debe contar, como los instrumentos de todas las ciencias, con dos requisitos indispensables: la confiabilidad y la validez. 


CONFIABILIDAD

 
La confiabilidad no es un asunto de todo o nada, sino una cuestión de grado: es un continuo que abarca desde la consistencia mínima de una medición a la casi perfecta repetibilidad de los resultados; las pruebas psicológicas se encuentran en algún lugar dentro de este continuo (Muñiz, 2003). Una medida es confiable si conduce a los mismos resultados o a resultados muy similares, "... sin importar las oportunidades para que ocurran variaciones" (Nunnally y Bernstein, 1995, pág. 2 3 8), es decir, la confiabilidad se refiere a la capacidad que tiene una medida obtenida, de poder generalizarse a otras situaciones. En un sentido amplio, la confiabilidad es la exactitud, la precisión con que un instrumento mide un objeto; en términos estrictos, la confiabilidad sería la ausencia de errores de medición; sin embargo, en psicología, es difícil utilizar este término en la me-dición de atributos psicológicos, como alternativa se utilizan sinónimos como estabilidad de la me-dida y consistencia interna, que explicaremos más adelante. Como ya veíamos en el modelo lineal clásico de la teoría de las pruebas (X = V + e), el término e o error de medición es todo aquello que, como parte de la puntuación obtenida por el sujeto en la prueba, difiere de la puntuación verdadera; la confiabilidad será más alta mientras más bajo sea ese término de error, ya que entonces la puntuación obtenida por el sujeto en una prueba se acercará más a su puntuación verdadera. En otras palabras, la puntuación obtenida por una persona en una prueba 
es una mezcla de la cantidad del atributo que posee dicha persona y el error de medición. Pero, ¿qué es lo que hace que el error aumente o disminuya en una medición?, ¿cuáles son las fuentes de error más comunes cuando se evalúa a una persona? 


FUENTES DE ERROR EN LA MEDICIÓN EN PSICOLOGÍA 










 


 

errores-en-la-mediciones-y-fuentes-de-er

La primera fuente de error en la evaluación psico-lógica es la selección de los reactivos. El autor de una prueba, una vez que elabora un conjunto de reactivos para medir el atributo meta, debe decidirse por seleccionar una muestra de ellos; ¿cómo elegirlos para que realmente sea representativa, para que sea equitativa en cuanto a los diferentes rubros que su prueba tiene? Por ejemplo, si una prueba de aritmética tiene más reactivos de sumas que de restas y un alumno estuvo ejercitándose más en sumas que en restas, su calificación será más alta que la que hubiera obtenido si se hubiera ejercitado más en restas que en sumas, o bien, si la prueba tuviera igual número de reactivos de ambas operaciones aritméticas. Una prueba bien diseñada y construida, debe asegurar que la muestra de reactivos contenga todos los tipos de contenidos que intenta medir, y de manera equitativa.

 

Otra fuente de error es la aplicación de la prueba. Los manuales de las pruebas presentan las condiciones estandarizadas de aplicación de la misma, así como las instrucciones que se les deben dar a los sujetos. Sin embargo, a veces hay factores que no se pueden controlar: un espacio no muy bien iluminado, libre de ruidos y distractores, mesa y silla cómodas, etc., así como las condiciones físicas del que está tomando la prueba: cansancio, falta de motivación, ansiedad, preocupación, hambre, sueño, sed y, en general, los estados emocionales; no siempre es posible controlar estos factores y forman parte del error aleatorio de medida. La calificación de la prueba constituye otra fuente de error.

 

Si bien existen claves o plantillas de corrección de las pruebas, en algunas de ellas hay reactivos cuya respuesta tiene que valorar y calificar el evaluador; por ejemplo, en las pruebas de inteligencia, cuando existen preguntas abiertas como: ¿qué harías si te encontraras una mochila tirada en el patio de tu escuela?, el evaluador tiene que decidir, de acuerdo con la respuesta dada por el evaluado, si le otorga la calificación de 0, 1 ó 2 puntos. Los constructores de las pruebas reducen este tipo de error al proporcionar en los manuales de las mismas muchos ejemplos de los posibles tipos de respuesta para que cualquier evaluador tenga más certeza en otorgar alguna puntuación. A los tipos de errores que hemos mencionado se les conoce como errores aleatorios o errores no sistemáticos, porque sus efectos son inconsistentes e imposibles de predecir; como su nombre lo indica, contribuyen de manera aleatoria a la puntuación de los sujetos, a veces lo favorecen y otras lo perju-dican, por lo cual, ya que son aleatorios, al sumarse, tenderían a acercarse a cero (puntuaciones negativas más positivas) y su efecto sobre la confiabilidad sería no significativo. Sin embargo, existen otros errores, los sistemáticos, que son los que realmente le preocupan a los constructores de pruebas, ya es, una vez construida, obtener mediante técnicas estadísticas su coeficiente de confiabilidad.

 

En este punto hay que agregar que para que una prueba se publique, los editores exigen datos sobre su confiabilidad y validez, de esta manera, podemos estar se-guros de que las pruebas que existen en el mercado son confiables y las podemos aplicar a los sujetos que así lo requieran, no así pruebas que se bajan de internet o se consiguen en fotocopias. 


CONFIABILIDAD COMO ESTABILIDAD DE LA MEDIDA 


Si midiéramos un objeto físico, por ejemplo, una mesa con un instrumento ad hoc para medir longitudes, como una cinta métrica graduada en centímetros y con divisiones para milímetros, el error de medición que podríamos cometer —suponiendo que elimináramos al máximo los errores aleatorios como colocar la cinta métrica inadecuadamente, ver la medida de lado y no de frente, mover la cinta a la hora de registrar la medida, etc.— es del orden de 0.1 a 0.4 cm a favor o en contra: si el final de la mesa cae después de la raya que indica 50 cm, pero antes de 50.5 cm, diríamos que esta medida podría ser 50.1, 50.2, 50.3 o 50.4 cm, según nuestra apreciación. ¿Cuál sería la mejor medida? Si en lugar de hacer una sola medición hacemos varias —digamos 10, ya sea por una sola persona, o bien, por 10 personas diferentes—, y si el instrumento utilizado es confiable, observaríamos que estas mediciones son muy cercanas, por ejemplo: 50.3, 50.4, 50.4, 50.2, 50.3, 50.3, 50.3, 50.2, 50.3, 50.3, esto es, la medida es estable a través de las diferentes mediciones, con un margen de variación muy pequeño (de 0.2 a 0.4 cm); si las mediciones difirieran mucho unas con otras, entonces el instrumento no sería confiable al no haber consistencia entre las mediciones.

 

La estabilidad de la medida se refiere a que al medir un atributo psicológico con un determinado instrumento, éste será confiable si al evaluar a los mismos sujetos con el mismo instrumento o con uno equivalente, las medidas obtenidas en la segunda aplicación son muy similares a las obtenidas en la primera, esto es, son estables a través del tiempo, lo cual indicaría que los errores de medición serían mínimos y, por lo tanto, la confiabilidad sería aceptable; las diferencias encontradas entre una medición y otra se atribuirían a los errores aleatorios asociados al proceso de medición y no al instrumento (Muñiz, 2003). Sin embargo, cuando medimos constructos psicológicos, no esperamos un grado de error tan pequeño como cuando medimos objetos físicos.

 

Ya que en psicología no tenemos instrumentos como los de las ciencias físicas que miden con tanta precisión, uno de los modos de obtener la confiabilidad de los instrumentos psicológicos es mediante la estabilidad de la medida: si aplicamos un instrumento a una muestra determinada de personas y lo volvemos a aplicar después de un tiempo para obtener la confiabilidad, las medidas obtenidas entre la primera y la segunda aplicación no deben ser tan diferentes, para poder acreditar al instrumento como confiable. Así, para conseguir este tipo de confiabilidad existen dos técnicas: obtención de la confiabilidad por los métodos test-retest y formas equivalentes de prueba o pruebas paralelas. Sin embargo, cuando utilizamos un instrumento para medir un objeto físico repetidas veces, como en el ejemplo anterior de la mesa, el objeto puede medirse en varias ocasiones sin problemas, ya que la mesa no cambia de longitud con el paso del tiempo, a diferencia de los atributos psicológicos, donde puede haber inconsistencias atribuidas tanto a la falta de confiabilidad del instrumento, como a cambios inevitables que pudieran ocurrir en el su-jeto evaluado o en la situación de evaluación.

 

En la confiabilidad test-retest se aplica la prueba a una muestra y se vuelve a aplicar un tiempo después, que puede variar entre una semana y varios meses. Teóricamente, si la prueba careciera totalmente de errores de medición y el paso del tiempo no fuera un factor importante en el atributo a medir, se esperaría que cada sujeto evaluado obtuviera exactamente la misma puntuación. Si éste fuera el caso, al graficar los datos y obtener el coeficiente de correlación de Pearson, tendríamos una gráfica como la siguiente: 



 

CUA.jpg

En esta Figura, al puntaje de cada sujeto en la primera aplicación (eje X) le corresponde exacta-mente la misma puntuación en la segunda (eje Y). Al obtener el valor de la correlación entre ambos pares de puntuaciones, alcanzaríamos un valor r= 1, que sería la correlación perfecta. De esta manera, el índice de confiabilidad de un instrumento de evaluación medido como estabilidad temporal, se calcula por medio del coeficiente r de Pearson, cuyos valores oscilan entre O —que indicaría total ausencia de confiabilidad— hasta 1, que sería la confiabilidad perfecta, la cual no existe, pero mientras más se acerque el valor de la r de Pearson a 1, más confiable es el instrumento. 

CU2.jpg

Correlación igual a cero

r=0

Nula confiabilidad

Figura 3. Confiabilidad igual a cero

cua3.jpg

Correlación igual a uno

r=0.85

Nula confiabilidad

Figura 3. Confiabilidad alta

El valor de la confiabilidad indica el porcentaje de varianza en las puntuaciones obtenidas, que es explicado por la variabilidad en las puntuaciones verdaderas y en qué medida se explica por efectos aleatorios. Por ejemplo, un valor de confiabilidad de 0.85 como el de la Figura 3, indicaría que la puntuación del sujeto se explica en 85% por las puntuaciones verdaderas obtenidas y en 15% por causas no determinadas, es decir, el instrumento es confiable en 85%. Por otro lado, la Figura 2 nos ilustra un caso de total ausencia de confiabilidad (r=0), no hay en absoluto concordancia entre las puntuaciones obtenidas en la primera y la segunda aplicación de la prueba. Sin embargo, obtener la confiabilidad de esta forma tiene algunas desventajas; por ejemplo, si se trata de una prueba de inteligencia y entre las dos aplicaciones hay una diferencia de tiempo corta (una semana), el efecto de memoria contribuirá a que los sujetos evaluados contesten de igual forma que la anterior, además de que la primera aplicación les pudo haber servido de práctica y entonces obtener mejores puntajes; por otro lado, si se deja transcurrir mucho tiempo, los inconvenientes serían los efectos de maduración y aprendizaje, que podrían elevar las puntuaciones obtenidas en la primera aplicación. Para evitar estas amenazas que compiten con la medición de la confiabilidad, se podría disponer de dos pruebas equivalentes o paralelas; sin embargo, al elaborarlas nunca tendríamos la certeza de que realmente posean el mismo grado de dificultad para medir el atributo en cuestión, además del alto costo y tiempo que implicaría elaborar dos pruebas psicológicas. Por ello, los constructores de pruebas le siguen dando prioridad a la técnica test-retest para obtener la con-fiabilidad de sus instrumentos de medición. 


CONFIABILIDAD COMO CONSISTENCIA INTERNA 


Por otro lado, la consistencia interna se refiere a que los reactivos de un instrumento dado son consistentes entre sí en la forma en que evalúan el atributo psicológico propuesto: los sujetos que poseen el atributo medido por la prueba en cantidad elevada, tendrán un puntaje alto en los reactivos de la misma, y los sujetos que no poseen el atributo o lo tienen en poca cantidad, tendrán un puntaje  bajo. Esta forma de obtener la confiabilidad tiene la ventaja de que no es necesario aplicar la prueba dos veces, sino que con una basta. Hay dos formas de obtener la confiabilidad desde esta perspectiva: confiabilidad de división por mitades y consistencia interna de los reactivos individuales. En la primera, se correlacionan los reactivos de una mitad de la prueba -generalmente los reactivos nones- con los de la otra mitad -los reactivos pares-, utilizando para tal fin la fórmula de correlación corregida Spearman-Brown, o bien, si la puntuación de los reactivos de la prueba es dicotómica, la fórmula Kuder-Richardson; se parte del supuesto de que ambas mitades son equivalentes y es como si se aplicaran dos pruebas cortas equivalentes. Este tipo de confiabilidad se utiliza en pruebas que miden habilidades intelectuales. Su-pongamos que los reactivos se enlistan en la prueba en orden de dificultad creciente y se seleccionan así para correlacionar los reactivos pares con los reactivos nones, si la correlación obtenida es alta, se infiere una alta confiabilidad en la prueba; sin embargo, la crítica a la obtención de la confiabilidad por este método recae en la supuesta equivalencia de ambas mitades de la prueba, además de que es dudosa su utilización en pruebas que miden constructos del área emocional o no intelectual. Cronbach (1951, citado en Gregory, 2001) acotó que para no depender de una sola división, se podría obtener la media de los coeficientes por mitades de todas las posibles formas de dividir la prueba en dos, lo que dio paso a la confiabilidad medida por el coeficiente Alfa de Cronbach. En la segunda forma de obtener la confiabilidad, se mide la consistencia interna de los reactivos individuales por medio del coeficiente Alfa de Cronbach, que se considera como la media de todas las correlaciones que pudieran obtenerse al dividir la prueba en todas las posibles mitades. Para que quede más claro el concepto de consistencia interna, supongamos que estamos elaborando una prueba para medir hábitos de estudio, con dos versiones, en la primera versión se incluye el reactivo 8a y en la segunda el reactivo 8b. En esta prueba, se otorga un punto por cada reactivo contestado afirmativamente y por cada reactivo no contestado negativamente. Los reactivos son los siguientes: 


1. ¿El lugar donde estudia es incómodo y con mucho ruido?

2. ¿Deja sus problemas personales cuando va a estudiar?

3. ¿A la hora de realizar un trabajo se da cuenta de que no tiene todo a la mano?

4. ¿Subraya las ideas más importantes del texto?

5. ¿Le da pena preguntar al profesor cuando no en-tiende algo en clase?

6. ¿Busca en el diccionario las palabras que no en-tiende cuando está leyendo un texto?

7. ¿Se aprende de memoria lo que no entiende?

8a. ¿Acostumbra hacer resúmenes o esquemas cuando está estudiando?

8b. ¿Sus zapatos actuales son incómodos? 

SEGUNDA ACTIVIDAD DE APRENDIZAJE:

 

No obstante de que se trata de una ejemplificación del tipo de prueba en estudio, de respuesta al mismo como si dicha prueba se le aplicara a usted y remita sus respuestas por correo. Esta actividad no depende de que las respuestas sean correctas o incorrectas, depende de su sensatez al responderlas.

En este ejemplo, en la primera versión, si el sujeto contesta afirmativamente los reactivos 2, 4, 6 y 8a, y negativamente los reactivos 1, 3, 5 y 7, obtendrá la puntuación más alta; a más alta puntuación, mejores hábitos de estudio. Aquellos sujetos que tienen puntaje alto en la prueba tenderán a responder afirmativamente a los reactivos 2, 4, 6 y 8a, y negativamente a los reactivos 1, 3, 5 y 7; mientras que los que tienen puntaje bajo en general en toda la prueba tenderán a responder afirmativamente a los reactivos 1, 3, 5 y 7 y negativamente a los reactivos 2, 4, 6 y 8a. Al dividir la prueba en todas las mitades posibles en este caso, el número de todas las formas o combinaciones posibles de ocho elementos o reactivos tomados de cuatro en cuatro es igual a 702, por lo que los pares de mitades para correlacionar serían 35, y obtener la media de las 35 parejas de correlaciones, como los reactivos miden consistentemente el atributo medido: hábitos de estudios, seguramente se obtendría un valor alto del coeficiente de correlación Alfa de Cronbach. Sin embargo, si aplicáramos la segunda versión de la prueba, con el reactivo 8b, a una población determinada y correlacionáramos las puntuaciones obtenidas de las 35 posibles parejas de reactivos, aquella mitad donde quede ubicado el reactivo 8b (sus zapatos actuales son incómodos?), no correlacionará positivamente alto con la otra mitad, debido a que el reactivo 8b pudiera ser contestado afirmativa o negativamente, tanto por un alumno con buenos hábitos de estudio como por aquél que no los tiene, esto es, ese reactivo es inconsistente, comparado con los demás reactivos, para medir el atributo de interés. El coeficiente Alfa de Cronbach nos proporcionaría, además de un índice de correlación, el conocimiento de qué reactivo es el que se está comportando de manera inconsistente y por lo tanto produce un valor más bajo de confiabilidad que el que se esperaría si se eliminara de la prueba. —Aclaramos que éste no es un libro de estadística —por eso no proporcionamos las fórmulas para encontrar los diferentes coeficientes de confiabilidad— sino para que el lector comprenda, cuando tenga en sus manos el manual de una prueba y revise los datos sobre confiabilidad, el tipo de coeficiente utilizado para conseguirla y cómo la obtuvo el constructor, además de interpretar el resultado final de dicho coeficiente. Así, podemos resumir que una prueba es confiable en sentido psicométrico si consistentemente produce, al ser aplicada en repetidas ocasiones, la misma puntuación o una muy similar, o bien, si los reactivos que la componen son consistentes entre sí en la forma en que miden el atributo propuesto por la prueba; veamos ahora el significado de esa medida. 


VALIDEZ


En un sentido muy general, un instrumento de medición es válido si hace aquello para lo que fue concebido; la validez de una prueba concierne a lo que ésta mide, su eficacia y lo que podemos inferir de los puntajes obtenidos en la prueba. Una medida puede ser confiable sin ser válida, por ejemplo, podemos utilizar una cinta métrica y medir en una jarra el nivel en donde se encuentra el agua (p. ej. 10.5 cm); esta medida es confiable, pero no válida: si cambiamos el agua a otro recipiente la medida será diferente y no podremos generalizar lo medido, no es válido medir capacidad con un instrumento que mida longitud. Sin embargo, para que una medida sea válida, necesita primero ser confiable; no tendría sentido hablar de validez de un instrumento de medición si no mide el atributo de manera confiable. La confiabilidad es una condición necesaria pero no suficiente para la validez. El estudio de la validez de un instrumento se refiere básicamente a validar los datos proporcionados por éste: el grado de adecuación, significación y utilidad de las inferencias específicas que pueden derivarse a partir de las puntuaciones de las pruebas; como menciona Martínez (1996), debemos tener siempre presente que lo que se valida no es el instrumento, sino la interpretación de los datos obtenidos por medio de un procedimiento específico, las inferencias que podemos deducir de la ejecución de un sujeto en una prueba, es decir, si la conducta mostrada en la situación de prueba es o no un reflejo de la conducta habitual del sujeto en situaciones naturales.

 

La validación requiere siempre de investigaciones empíricas y el tipo de datos necesarios para ello de-pende de la clase de validez que se desea establecer y del uso que se les dará a los datos obtenidos con la aplicación de la prueba; al igual que la confiabilidad, la validez no es un asunto de todo o nada, sino una cuestión de grado. Ninguna prueba es válida en general, una prueba sólo es válida para la finalidad específica para la que fue construida, por lo tanto, puesto que las pruebas se emplean para diversos fines, no existe un solo tipo de validez para todos los propósitos de evaluación y en el evaluador recae la responsabilidad del empleo válido de los resultados de la prueba. Fundamentalmente, todos los procedimientos para determinar la validez de una prueba conciernen a las relaciones entre la ejecución y otros hechos observables de manera independiente acerca de las características de la conducta que se estudia. Los tipos de validez que los Standards of the American Psychological Association han establecido, según el tipo de prueba y el uso al que esté destinada, son (Anastasi, 1988): validez de constructo, validez de criterio y validez de contenido; a continuación se describen cada una de ellas. 


VALIDEZ DEL CONSTRUCTO

 
En la medida en que alguna variable es abstracta, hablamos de ella como un constructo. Una variable así es literalmente un constructo, pues es algo que no existe como dimensión de conducta observable; cada constructo se desarrolla para explicar y organizar consistencias de respuestas observadas (p. ej. inteligencia o personalidad). La validez de constructo es la extensión en la cual la prueba dice medir un constructo o rasgo teórico y requiere la acumulación gradual de información de diferentes fuentes; cualquier dato que arroje luz sobre la naturaleza del constructo bajo consideración y de las condiciones que afectan su desarrollo y sus manifestaciones, representa una evidencia apropiada para este tipo de validación (Martínez, 1996).