Resumen: Este artículo examina los retos y la importancia de adaptar las pruebas psicológicas. La psicología, como ciencia que estudia la mente y el comportamiento, se enfrenta a la singular complejidad de evaluar constructos intangibles como las emociones, los pensamientos y las actitudes. A diferencia de otras disciplinas científicas, las mediciones psicológicas suelen ser indirectas y estar influidas por errores de medición. En consecuencia, es crucial garantizar su fiabilidad y validez. Este artículo profundiza en los pasos fundamentales para realizar adaptaciones de pruebas psicológicas. Dado que la mayor parte de la investigación psicológica procede de países anglosajones, es esencial modificar las pruebas para adaptarlas a poblaciones e idiomas diversos. Por ello, un aspecto crítico es la adaptación lingüística y cultural de los instrumentos y pruebas psicológicas. Se resalta la importancia de las perspectivas émicas y éticas para comprender los matices culturales y lingüísticos y se abordan los posibles sesgos y heurísticos que pueden influir en los resultados de las pruebas. Además, se destaca el papel de la adaptación para promover una mejor comprensión del comportamiento humano en diversos contextos culturales. Por último, se presenta una síntesis clara de los pasos para la adaptación de las pruebas, siguiendo las directrices de la International Test Commission (ITC). La incorporación de consideraciones culturales y lingüísticas en la adaptación de las pruebas mejorará sin duda la eficacia y aplicabilidad de las evaluaciones psicológicas en poblaciones diversas.
Palabras clave: psicometría,escala,confiabilidad,validez,prueba psicológica.
Abstract: This article examines the challenges and importance of adapting psychological tests. Psychology, as a science that studies the mind and behavior, faces the unique complexity of assessing intangible constructs such as emotions, thoughts, and attitudes. Unlike other scientific disciplines, psychological measurements are often indirect and influenced by measurement errors. Consequently, it is crucial to ensure their reliability and validity. This article delves into the fundamental steps in making adaptations of psychological tests. A critical aspect of cross-cultural research is linguistic and cultural adaptation. Given that most psychological research comes from Anglo-Saxon countries, it is essential to modify tests to adapt them to diverse populations and languages. The authors highlight the importance of emic and ethical perspectives in understanding cultural and linguistic nuances. In addition, they address potential biases and heuristics that may influence test results. The role of adaptation in promoting a better understanding of human behavior in diverse cultural contexts is highlighted. Finally, a clear synthesis of the steps for test adaptation is presented, following the guidelines of the International Test Commission (ITC). The incorporation of cultural and linguistic considerations in test adaptation will undoubtedly improve the effectiveness and applicability of psychological assessments in diverse populations.
Keywords: psychometrics, scale, reliability, validity, psychological testing.
Artículos
Pasos Fundamentales Para Realizar Adaptaciones de Pruebas Psicológicas
Fundamental Steps for Making Psychological Test Adaptations
Recepción: 23 Octubre 2023
Aprobación: 30 Octubre 2023
La Psicología es la ciencia que se encarga de estudiar la mente y el comportamiento (American Psychological Association [APA], 2015). Como toda rama de la ciencia debe tener instrumentos válidos para poder evaluar su objeto de estudio. Así, por ejemplo, la medicina se vale de análisis de sangre y estudios por imágenes para estudiar el cuerpo humano; la química utiliza balanzas, termómetros y probetas para abordar la materia y la energía; la biología para aproximarse a los seres vivos utiliza microscopios, probetas y pipetas. Entonces, cabe preguntarse ¿cómo estudian los psicólogos la mente y el comportamiento humanos? Tal como sucede en las otras disciplinas, no existe una única forma de abordar el objeto de estudio. Sin embargo, a diferencia de otras áreas científicas, especialmente las exactas, la psicología debe afrontar la dificultad que conlleva el estudio del ser humano. En numerosas ocasiones se enfrenta al estudio de aspectos que se pueden explicar, pero no se pueden medir con exactitud por ser invisibles, tales como las emociones, el pensamiento, las actitudes, el estilo de personalidad, entre otros. A diferencia de una hoja de una planta que podría introducirse en un microscopio para ser estudiada por un biólogo, un psicólogo no podría introducir el pensamiento de una persona en una herramienta para ser analizado. Ese pensamiento no es tangible en sí mismo, pero sí existe y es objeto de estudio. Así sucede con la mayoría de los aspectos abordados por la psicología, lo cual suscita un gran desafío que viene siendo abordado desde hace tiempo. Este tema puede sintetizarse en la frase "Medimos a los hombres por sus sombras", atribuida a Thurstone, que señala que medir en psicología no es una tarea sencilla y, por ende, la evaluación tampoco lo es. No obstante, el progreso tecnológico de las últimas dos décadas puede resultar fundamental para el avance significativo de la medición y evaluación psicológica.
En este punto vale la pena introducir la distinción de dos conceptos estrechamente ligados, pero distintos: la medición y la evaluación en psicología. En primer lugar, medir implica básicamente asignar números a los fenómenos siguiendo ciertas reglas (Martínez Arias, 1995). Sin embargo, esto no es sencillo en psicología debido a que, tal como se mencionó previamente, las mediciones son indirectas y están influenciadas por el error de medida. En otras palabras, los constructos psicológicos no son accesibles directamente, sino que se infieren a partir de manifestaciones que pueden ser recolectadas mediante diferentes técnicas de evaluación. Esto implica que la mayoría de las mediciones no se refieren a cantidades, como lo exige el modelo clásico de medida. En cambio, se refieren a relaciones entre cantidades, según lo establece el modelo representacional, que pueden ser de tipo nominal (distintividad), ordinal (orden), de intervalos (aditividad) y de razón (proporcionalidad) (Stevens, 1946).
Además, la medición en psicología no es exacta. Como postuló Spearman (1905), toda medición está sujeta al error de medida, lo que significa que la puntuación observada está compuesta por una puntuación verdadera —que es desconocida— y el error de medida. Por lo tanto, las mediciones no solo son indirectas, sino que, por definición, son inexactas. Por esta razón, es crucial que las puntuaciones derivadas de técnicas y pruebas psicológicas presenten evidencias satisfactorias de fiabilidad y validez. Estos conceptos serán desarrollados en profundidad posteriormente. Solo es necesario recordar aquí que la fiabilidad se refiere a la consistencia, estabilidad y objetividad de las medidas, mientras que la validez se relaciona con su significación y pertinencia empírica y conceptual. Ambas características son indispensables en la evaluación de cualquier medida o prueba psicológica.
En segundo lugar, la evaluación en psicología implica un proceso más amplio que consiste en un procedimiento sistemático para observar y describir la conducta utilizando escalas o categorías establecidas. Como señaló Cronbach (1972), la evaluación va más allá de la mera aplicación de pruebas, ya que implica la integración y valoración de la información recopilada. Mientras que la medición responde a la pregunta "¿cuánto?", un proceso de evaluación se centra en la pregunta "¿qué significa o implica ese resultado?". En este sentido, la evaluación puede entenderse como un juicio de valor asociado a un desempeño o resultado.
Garaigordobil (1998) define la Evaluación Psicológica (EP) como
aquella disciplina que explora y analiza el comportamiento de un individuo o grupo con diversos objetivos (descripción, diagnóstico, selección/predicción, explicación, cambio y/o valoración) a través de un proceso de toma de decisiones en el que se utilizan diversos dispositivos (pruebas y técnicas de medida y/o evaluación), tanto para evaluar aspectos positivos como patológicos (p. 22).
De esta manera, la EP abarca tareas como el psicodiagnóstico, la evaluación de potencialidades y capacidades, y la valoración de programas e intervenciones, que se clasifican según el objetivo específico de la evaluación (Casullo, 2009; Fernández Ballesteros, 2013). Un caso especial es el psicodiagnóstico, que a menudo incluye pruebas proyectivas. Si bien se reconoce el valor de estas pruebas, este artículo se centrará únicamente en las pruebas psicométricas. Así, se introduce un concepto clave en esta área, la Psicometría.
La Psicometría, en un sentido amplio, es la disciplina que se encarga de la medición en psicología. Según Martínez Arias (1995) la Psicometría “aglutina todo el conjunto de modelos formales que posibilitan la medición de variables psicológicas, centrándose en las condiciones que permiten llevar a cabo todo proceso de medición en psicología” (p. 21). Por su parte, Muñiz (1998) aclara que pueden distinguirse cinco grandes áreas en la Psicometría: (a) la Teoría de la medición, que incluye a las teoría clásica o de la medición conjunta, teoría operacional y teoría representacional de la medida (Martinez Arias, 1995); (b) la Teoría de los tests —Teoría Clásica de los Tests (TCT) y Teoría de Respuesta al ítem (TRI)—; (c) el escalamiento psicofísico, cuantificación de la percepción de estímulos físicos, que dan lugar a la formulación de las leyes de Weber, Fechner y Stevens; (d) el escalamiento psicológico, cuantificación del continuo psicológico, por ejemplo las escalas de Thurstone, Likert y Guttmann; y (e) el desarrollo y aplicación de técnicas multivariadas para la construcción y análisis de los tests.
En este sentido, la construcción de un test. implica —en forma expresa o tácita— la asunción de una teoría de la medida, una tipología de test, un escalamiento y el uso de técnicas estadísticas para obtener evidencias de fiabilidad y validez. A su vez, la adaptación de tests, que es el objeto de este artículo, refiere a la constatación de que un test construido en una cultura sea igualmente pertinente en otra; aún más, la adaptación de tests constituye, en parte, una prueba de la universalidad del constructo medido y coadyuva al desarrollo de la ciencia psicológica.
En los párrafos precedentes se ha hecho un recorrido por los conceptos más relevantes a tomar en consideración en relación con las pruebas psicológicas. Se introducirá entonces la cuestión específica de la adaptación de pruebas. Así, vale la pena preguntarse ¿por qué resulta importante adaptar las pruebas psicológicas? Tal como sucede en la mayoría de las disciplinas científicas, casi la totalidad de las investigaciones y progresos en ciencia y tecnología psicológica se dan en países desarrollados y del hemisferio norte, generalmente de habla inglesa. Esto puede observarse a simple vista en las bases de datos de alto impacto tales como Scopus y PubMed y, fundamentalmente, en los rankings de revistas científicas que clasifican y evalúan la calidad e impacto de las publicaciones tales como Web of Science Journal Citation Reports (JCR) y Scimago Journal Rank (SJR). Por ejemplo, al ingresar en SJR al área de psicología se visualiza que de las diez primeras revistas del ranking, ocho son estadounidenses y dos son inglesas (ver: https://www.scimagojr.com/journalrank.php?area=3200). De este modo, se puede asumir que la gran mayoría de las pruebas de medición en psicología se construyen en inglés, es decir, un idioma que no es el utilizado en Latinoamérica en general ni en Argentina en particular. Además, en el desarrollo de estos instrumentos se utilizan muestras que viven en lugares con pautas culturales que difieren en gran medida de las locales. Esto responde, en buena parte, a la pregunta acerca de la importancia de la adaptación de técnicas: la adaptación lingüística y la consideración de diferencias culturales son cruciales en la adaptación porque influyen decisivamente en la fiabilidad y validez de las medidas.
En las décadas de 1980 y de 1990, algunos investigadores latinoamericanos como Casullo (1999) y Marín (1986) y otros provenientes de la psicología transcultural (Berry, 1980; Triandis y Brislin., 1984) pusieron de relieve la importancia de analizar la influencia de los factores culturales en la adaptación de tests. Para ello, tuvieron en cuenta el enfoque transcultural (Berry, 1980) que clasifica a los constructos en etic, constructos universales, considerados como tales por la comunidad científica; emic, constructos dependientes de una cultura determinada y pseudoetic, que toman como universales a constructos que, en realidad, son propios de una cultura. En concreto, lo émico se refiere al enfoque interno, desde dentro de la cultura o grupo social en estudio. Se centra en las creencias, valores, normas y significados que son importantes para los individuos dentro de un contexto cultural específico. Por otro lado, el enfoque ético se refiere a un enfoque externo o desde fuera de la cultura en estudio. Este enfoque busca establecer parámetros y normas universales para evaluar el comportamiento humano y, en definitiva, su propósito es tener un marco de referencia objetivo para analizar y juzgar la conducta (Mostowlansky y Rota, 2020). Por ello, He y Van de Vijver (2012) señalan que, para maximizar la validez en el desarrollo y adaptación de constructos y medidas, hay dos temas esenciales en estudio: el sesgo y la equivalencia. El sesgo se refiere a cualquier error sistemático que atente contra la comparabilidad de los datos transculturales. Por ello, la demostración de equivalencia es previa. En general, se distinguen tres tipos de sesgos: los de constructo, de método y de ítem, que se estudian y neutralizan mediante investigaciones acerca de las equivalencias de constructo, las cuales analizan si existen diferencias en la definición del constructo y de sus conductas representativas; las métricas —que estudian la comparabilidad de las muestras, la familiaridad con los estímulos y los procedimientos de respuesta, los estilos de respuesta y la concordancia de consignas e instrucciones— y las escalares, que se enfocan en la adaptación lingüística de ítems, consignas y escalas de medidas.
Este último punto atañe a la adaptación lingüística que no se restringe, como es de esperar, a la mera traducción de los ítems. Si así fuera, se podría utilizar una escala adaptada en español en cualquier población con el mismo idioma. Por ejemplo, una prueba desarrollada en Estados Unidos es adaptada en España o en Argentina y esa adaptación es utilizada en cualquier país de Latinoamérica. Esto ocurre con frecuencia, pero no es una práctica correcta. Para entender esto es necesario puntualizar en las diferencias de semántica y de habla (pragmática del lenguaje) aún dentro del mismo idioma. Baste recordar que el número de las zonas dialectales del español en las Américas oscila entre tres y 16 según el autor (Quesada Pacheco, 2014) y que ello implica diferencias en el significado de las palabras (Por ejemplo, en España “cartera”, designa una pieza de marroquinería para llevar dinero, pero en Argentina, al bolso de mujer) y el uso de distintos términos para designar los mismos conceptos (por ejemplo, el trozo de papel de variadas formas que los niños remontan los días de viento, en España se dice “cometa”, en Argentina, “barrilete” y en México, “papelote”). Por eso, es importante sopesar adecuadamente las particularidades del habla en español al analizar la pertinencia de una adaptación realizada en una zona para ser utilizada en otra. En la Tabla 1 se puede visualizar un breve listado de palabras que difieren en dos países diferentes hablantes del español. Esta síntesis permite entender rápidamente la importancia de realizar una adaptación lingüística incluso en pruebas a utilizarse en países con el mismo idioma.
Finalmente, otro punto para destacar es la posible influencia de los sesgos y heurísticos. Los heurísticos son procedimientos de estimación –“atajos cognitivos”- y redundan en respuestas intuitivas. Se utilizan no solo para los problemas de alta complejidad, sino también para cuestiones simples de verosimilitud, frecuencia y predicción y se clasifican en heurísticos de anclaje, de representatividad y de disponibilidad (Kahneman & Tversky, 1979). En particular, en relación con las adaptaciones de pruebas psicológicas, hay que considerar el efecto marco y los heurísticos de disponibilidad.
El efecto marco refiere a las variaciones de respuesta que producen los sujetos según el modo en que se presente la información de una tarea. La información puede presentarse desde un marco positivo o bien uno negativo y ello es decisivo para definir la dirección de la respuesta (Kahneman & Tversky, 1976). Por ejemplo, en un estudio con el BDI-II se observa que la presencia de títulos negativos en los grupos de ítems (por ejemplo, “Desvalorización”; “Pesimismo”; “Fracaso”) influye en la respuesta al inventario. Si bien la correlación entre la administración de una versión con títulos y otra sin títulos en la misma muestra es alta (Brenlla y Rodríguez, 2006), no obstante, se registra un efecto principal significativo, ya que las puntuaciones son mayores en la versión con títulos (Brenlla et al., 2023).
Los heurísticos de disponibilidad refieren a cuán disponibles, cuan rápidamente vienen a la mente los ejemplos de algo y está asociado con el efecto de recencia y con la memoria. Los hechos que se recuerdan mejor se utilizan para establecer frecuencias o probabilidades. Así, un mismo ítem puede tener diferentes significados en distintas culturas. Esto lleva a que un grupo puede obtener puntajes significativamente distintos en un ítem determinado a pesar de obtener un puntaje total similar en la puntuación total. Por ejemplo, en la adaptación argentina del WISC-IV, en el estudio piloto, se constató que los niños obtenían puntuaciones más bajas en ítems gráficos que contenían dibujos de trineos y bellotas. Al realizar entrevistas cognitivas con los niños, se notó que estos dibujos no les eran familiares, ya que aludían a objetos poco usuales. Se los reemplazó por hamacas y zanahorias y las puntuaciones concordaron con las esperadas para la edad y con las del país de origen (Taborda et al., 2011), lo cual señala la importancia de la relevancia cultural en la adaptación de ítems (Mikulic, 2007), tanto en las pruebas de rendimiento como en las evaluaciones neuropsicológicas y en las de personalidad.
En síntesis, a diferencia de otras disciplinas científicas, la psicología enfrenta el desafío de abordar aspectos intangibles del ser humano, como las emociones, el pensamiento y las actitudes. A pesar de la dificultad que implica medir estos constructos, los psicólogos han desarrollado técnicas de evaluación y adaptación de pruebas para comprender y valorar la complejidad de la conducta humana en distintos contextos culturales y lingüísticos. Si bien la medición en psicología puede ser inexacta, la búsqueda constante de fiabilidad y validez en las pruebas psicológicas impulsa el avance en esta área de investigación.
Por ello, la adaptación de pruebas juega un papel fundamental para asegurar que los instrumentos utilizados en estudios y evaluaciones sean apropiados y significativos para la diversidad de poblaciones y culturas. A medida que la tecnología avanza, la Psicología se beneficia de nuevos enfoques que permiten un mejor entendimiento de la mente y el comportamiento humanos, promoviendo el progreso en el conocimiento y la práctica psicológica. A continuación, se presentará una síntesis de los pasos para adaptación de pruebas siguiendo los lineamientos de la Comisión Internacional de Pruebas o International Test Comission en inglés (International Test Comission [ITC], 2017) que se resumen en la Figura 1. A su vez, se invita al lector a considerar la lista de verificación de estos lineamientos que realizan Hernández et al. (2020).
Las directrices previas incluyen tres elementos fundamentales: la obtención del permiso del autor o editor original del test para su adaptación; las características y equivalencia del constructo a medir y la minimización de la influencia de diferencias culturales y lingüísticas (ITC, 2017).
Se torna fundamental antes de iniciar cualquier proceso de adaptación de un test el obtener el permiso de los autores o portadores de la propiedad intelectual de este. Estas prácticas se reflejan en la autenticidad de la versión final de una prueba y dificulta la adaptación no autorizada de tests para los distintos campos que existen (Muñiz et al., 2013). Asimismo, este paso remite a las dimensiones éticas de la evaluación psicológica, principalmente desde la dimensión de la integridad del evaluador al presentar una comunicación y espíritu colaborativos con otros profesionales para el enriquecimiento del conocimiento (Muñiz, 1998). A la vez promueve los ideales de la Ciencia Abierta al generar un espacio colaborativo y transparente entre investigadores (Becerril-García et al., 2018).
El uso de instrumentos diseñados y validados para otras culturas entraña ciertos aspectos a considerar de manera concienzuda por el investigador. Si bien la aplicación de tests diseñados en otras culturas reducen la inversión de recursos humanos, económicos y de tiempo y que emplear un mismo instrumento posibilita unificar el conocimiento derivado del estudio sobre una temática en particular; no obstante, no es correcto utilizar un instrumento extranjero, con normas realizadas en otro país sin realizar la tarea de adaptación correspondiente. Este proceso implica distintos niveles de modificación del instrumento original. Así, se diferencia entre la mera aplicación —administrar una prueba habiendo realizado previamente la traducción literal de los ítems originales al idioma de la población objeto—, adaptación —tiene lugar un proceso de mayor transformación del instrumento original, pero en su mayor parte su estructura y contenido se conservan—, y ensamble —las modificaciones realizadas son profundas y el resultado final diverge del instrumento original grandemente, por lo que ya se trata de un test nuevo (Van de Vijver y Hambleton, 1996).
Cuando se verifican diferencias culturales y/o lingüísticas importantes en el constructo o entre la población objeto y la originaria, no es recomendable realizar un proceso de adaptación. Por caso, en el estudio del comportamiento económico del ahorro en población argentina, el emplear instrumentos que hubiesen sido concebidos y diseñados para economías de otras características (más estables, con menor inflación, entre otros factores) o que representen una realidad socioeconómica e histórica muy distinta, acarrearían posiblemente mediciones y resultados poco representativos de la realidad local (Fernández Da Lama y Brenlla, 2023a, 2023b).
Las directrices de desarrollo incluyen cinco temas referidos a (a) los procedimientos para la adaptación lingüística y cultural de los elementos del test; (b) el uso de diseños apropiados para garantizar la idoneidad de la adaptación de la prueba; (c) brindar evidencias acerca de la concordancia de las instrucciones, las consignas del test, con los ítems; (d) del formato de los ítems y escalas de medida y © proveer de información detallada acerca de los estudios piloto realizados.
Un aspecto para destacar como fundamental en todo estudio transcultural es definir la perspectiva del proyecto investigativo. En este sentido, la investigación transcultural basada en una perspectiva operacional tenderá a determinar si el concepto, fenómeno o constructo existe en una cultura determinada, mientas que, si el interés del investigador está centrado en la comparación entre grupos culturales, el producto adaptado final deberá reflejar de manera sensible la integración en las distintas culturas de interés (Irvine y Caroll, 1980).
La literatura clásica sobre la metodología de investigación a aplicar en estudios transculturales delimita tres aspectos fundamentales (Berry, 1980):
El primero son estudios de equivalencia cultural, en tanto que el constructo a medir presente un significado y relevancia similar entre las distintas poblaciones, proceso que deberá incluir distintas traducciones y retro traducciones realizadas de manera independiente, estudios de análisis de la población objetivo, estudios piloto para el testeo de las versiones generadas; y monitoreo del flujo de trabajo. Asimismo, vale mencionar que, si bien el proceso de retro traducción —o back-translation en inglés— es de uso muy frecuente en investigación, distintas problemáticas se han asociado al mismo. En particular, Behr (2017) encuentra incongruencias cuando las versiones re-traducidas se contrastan con comprobaciones adicionales por parte de hablantes nativos y que puede ocasionar falsas alarmas y dejar ocultos problemas de adaptación. Por ejemplo, en la adaptación argentina de los subtests verbales del WAIS-III (Brenlla, 2004), mediante la técnica de back-translation, se llegó a la palabra “audaz” como traducción de “audacious”. No obstante, en el estudio piloto, esta palabra presentó un índice de dificultad mucho menor al encontrado en inglés. Al analizar la frecuencia de uso de la palabra audacious, se constató que ésta es una palabra de baja frecuencia de uso en inglés; en cambio, en español, la palabra “audaz” es de una frecuencia de uso medio-alta. Por ende, la adaptación lingüística —basada en el significado de la palabra y su frecuencia de uso— llevó a cambiarla por “intrépido” que funcionó de acuerdo con lo esperado en el estudio final.
El segundo es equivalencia funcional, en tanto el grado en que un concepto genera una actitud o respuesta similar o es concebido de manera semejante invariablemente en las poblaciones objeto. Puede citarse el concepto “saudade”, término de origen portugués incorporado al español, que remite a un estado emocional profundo de nostalgia y felicidad (Bulat Silva, 2012; Farrell, 2006; Vasconcelos, 1996). Este término no cuenta con una traducción literal a otras lenguas, por lo que no contaría con una equivalencia funcional entre distintas culturas a diferencia de otros conceptos como amor o compromiso (Neto y Mullet, 2014).
Finalmente, la perspectiva émica y ética a la hora de abordar un concepto incluye la comprensión de la existencia de diferencias en los significados atribuibles al constructo de interés dentro de un entorno cultural específico, tal como se puntualizó en la introducción.
En virtud de estos antecedentes se recomienda que el equipo orientado en el proceso de traducción se encuentre constituido por distintos profesionales con experticia relevante al constructo a evaluar, por profesionales bilingües, expertos en la cultura diana y expertos en construcción de tests. Los procedimientos y diseños para la adaptación lingüística pueden incluir la traducción directa, la re-traducción o la traducción simultánea según el objetivo de la investigación (Hernández et al., 2020), pero en todos los casos, es conveniente trabajar con traducciones independientes y juicio de expertos para la obtención de la versión adaptada definitiva del test.
Otro aspecto de importancia es proveer evidencias de que las instrucciones del test y de los ítems tengan un significado similar en la cultura origen y en la cultura donde se adapta el test. Para ello, es de utilidad trabajar con grupos a los que se les administra la prueba para indagar acerca de la claridad y pertinencia de los ítems, las consignas e instrucciones. El mismo procedimiento puede ser utilizado para analizar las escalas de medida, las opciones de respuesta y el formato de los ítems así como asegurar que la población diana comprende y está familiarizada con la administración de pruebas.
Por último, se remarca la importancia de llevar adelante estudios piloto que permitan detectar errores o dificultades de comprensión de la escala por parte de la muestra objetivo, así como también emprender análisis preliminares a nivel psicométrico de la versión adaptada experimental. De acuerdo con Martínez Arias (1995) una muestra piloto debería incluir al menos 120 casos para una primera aplicación. El análisis de los datos del estudio piloto incluye revisar la calidad psicométrica de la adaptación —análisis de ítems, fiabilidad y validez— y la calidad de la adaptación lingüística realizada (Hernández et al., 2020). En caso de detectar errores sistemáticos que sugieran dificultad en la adaptación psicométrica y/o lingüística de algún ítem, se recomienda elaborar reactivos alternativos y realizar un nuevo estudio piloto y un re-análisis de los datos con una nueva muestra piloto.
Esta etapa incluye (a) los procedimientos para la recogida de datos, (b) la equivalencia con la prueba original, (c) las evidencias de fiabilidad y validez y (d) el uso de modelos estadísticos apropiados para el análisis de datos. Esto es, se profundiza en el análisis de las propiedades psicométricas del test adaptado en relación con el test original.
Debe iniciarse definiendo las características de los sujetos que conformarán la muestra, así como la técnica de muestreo y la suficiencia, relevancia y representatividad de la población en estudio. El tamaño muestral tiene un impacto en la precisión de las estimaciones estadísticas que se realicen en el estudio de adaptación ya sea un análisis factorial exploratorio, confirmatorio o de ecuaciones estructurales (Kyriazos, 2018; Thompson, 2004). A la hora de definir el tamaño muestral existen distintos métodos, en términos generales, muestras más grandes son preferibles a muestras más reducidas, especialmente dada la mayor estabilidad en la solución factorial arribada con las primeras (DeVellis, 2017). Una regla clásica indica como deseable el contar entre 5 y 10 casos por ítem del instrumento (Everitt, 1975; Gorsuch, 1983), entre al menos 200 (Cattell, 1978), 250 (Comrey y Lee, 1992) o varios cientos más (Thompson, 2004). No obstante, aspectos como las comunalidades, cargas factoriales, cantidad de factores, naturaleza de las variables, y el número de ítems por factor también influyen en la definir el tamaño muestral requerido (Costello y Osborne, 2005; DeVellis y Thorpe, 2017; MacCallum et al., 1999), con lo cual, no se trata de una regla univariante en todo estudio. De hecho, recolectar una muestra “demasiado grande” no solo representa un sobre esfuerzo a nivel investigativo, junto con el uso extensivo de recursos de tiempo y dinero, sino que, además, podría remarcar efectos espurios o poco relevantes.
Otro aspecto importante, especialmente dado el desarrollo de programas y aplicativos, es el análisis de potencia estadística como R Studio (2015), G*Power (Kang, 2021) y calculadoras online (Preacher y Coffman, 2006). Este tipo de análisis aplicados al cálculo del tamaño muestral permiten detectar la probabilidad de detectar un efecto real presente (Coolican, 2018).
Un aspecto fundamental en este punto es explorar los aspectos técnicos relacionados a las propiedades psicométricas de la prueba adaptada y el grado de equivalencia con la prueba original. Para esto existen métodos basados en los modelos de ecuaciones estructurales (SEM; Garnier-Villarreal y Jorgensen, 2020; Cui et al., 1998; Rigo y Donolo, 2018), en la Teoría de Respuesta al Ítem (TRI; Auné et al., 2020; Attorressi et al., 2009; Bean y Bowen, 2021; Choi y Asilkalkan, 2019; Muñiz, 2010; Toland, 2013), y métodos de detección del funcionamiento diferencial de los ítems (DIF; Zumbo, 2003, 2007; Zumbo et al., 2015).
En cuanto al análisis de la equivalencia de los ítems adaptados y de la prueba original, se recomiendan los estudios de Ferrando y Lorenzo-Seva (2014, 2018) y Ferrando et al. (2022). A modo de resumen, el investigador deberá considerar la adecuación de los datos y la muestra al estudio de adaptación a realizar, el cálculo de estadísticos descriptivos univariados, el análisis de la varianza común explicada, así como determinar qué conjunto de ítems serán analizados. Deberá definir qué tipo de modelo factorial se empleará, junto con el tipo de solución factorial, el cálculo de los distintos parámetros que den cuenta del ajuste del modelo y la adecuación de la solución factorial obtenida, la coherencia sustantiva del modelo ajustado, y por último, la selección del conjunto de ítems con mejores propiedades psicométricas que conformen la versión final del test.
En términos generales, la fiabilidad de un instrumento remite a la consistencia en las puntuaciones obtenidas tras su uso repetido (Muñiz, 2010). Como se ha mencionado en apartados anteriores, la validez y la fiabilidad de una prueba son dimensiones de interés para la evaluación educativa y psicológica (American Educational Research Association, American Psychological Association, & National Council on Measurement in Education [NCME], 2014). En la Tabla 2 se exponen de manera resumida las diferentes dimensiones que componen el estudio de la confiabilidad de un instrumento.
Puede suceder también que la fuente de imprecisión en las puntuaciones arrojadas por la prueba provenga de cambios personales aleatorios en el examinado y en las condiciones de administración que ocurran a lo largo del tiempo. Esto podría ocurrir en el caso de evaluar una variable que se viera modificada a medida que el sujeto de desarrolla (relación entre inteligencia y edad hasta cierto punto de la vida de la persona) o donde la mediación del aprendizaje es de relevancia. Sin embargo, si esos cambios que se dan en la variable no se encuentran sustentados por la teoría del investigador, bien puede estarse frente a un funcionamiento inadecuado de la prueba adaptada. Este fenómeno remite a la estabilidad temporal de las puntuaciones. La estimación de la confiabilidad en este caso requerirá de al menos dos conjuntos de medidas paralelas que difieran en contenido de la prueba o el tiempo de administración (método de formas alternas o equivalentes o método test-retest) de los mismos sujetos examinados. Se deberá calcular un coeficiente de correlación de Pearson para evaluar la estabilidad entre administraciones de una prueba (Guttman, 1945; Polit, 2014).
Por su parte, el estudio de la consistencia interna estará referido a en qué medida la elección de la muestra de ítems que componen la prueba resulta una fuente de error en la medición realizada. Representa una tarea vital en la labor científica el considerar y controlar la presencia de errores aleatorios que puedan alterar la medición (Cronbach y Shavelson, 2004).
La fórmula KR-20 (Kuder y Richardson, 1937), antecedente del Alfa de Cronbach, tradicionalmente se ha empleado para estimar la consistencia interna de escalas dicotómicas. Se torna importante destacar que el KR-20 no es recomendable si se trabaja con ítems con un nivel heterogéneo de dificultad (Merino-Soto y Charter, 2010), por lo que se sugiere emplear un método de corrección en tal caso (Horst, 1953).
El uso del Alfa de Cronbach ha contado con gran popularidad y adhesión por parte de investigadores (Doval et al., 2023; Ursachi et al., 2015) a la hora de estimar la consistencia interna en escalas ordinales. En el contexto de su uso en investigación, valores por encima del coeficiente 0.70 para la escala total o una subescala son interpretados como aceptables (Taber, 2018; Van Griethuijsen et al., 2015). En cambio, para la toma de decisiones en el ámbito de la psicología aplicada, se recomiendan valores entre 0.80 y hasta 0.95, ya que coeficientes más altos podrían indicar redundancia entre los ítems. No obstante, con el tiempo han surgido varios cuestionamientos sobre la potencia estadística de esta medida (Christmann y Van Aelst, 2006; Sijtsma, 2009), hallando incluso una infravaloración de la consistencia interna de escalas de menos de 10 ítems (Herman, 2015), y se ha criticado su uso en escalas ordinales, especialmente en aquellas de menos de 5 opciones de respuesta (Elosua Oliden y Zumbo, 2008; Contreras Espinoza y Novoa-Muñoz, 2018).
En la actualidad, se recomienda el uso de otros indicadores, tales como los coeficientes alfa ordinal (Gadermann et al., 2012; Zumbo et al., 2007), omega (McDonald, 1999; Viladrich et al., 2017), beta (Revelle, 1979), theta (Armor, 1973), y H (Hancock y Mueller, 2001).
A la hora de determinar qué coeficiente de fiabilidad emplear es fundamental tener en cuenta el nivel de medición de la variable en cuestión (Doval et al., 2023). Esto implica distinguir si se trabaja con datos dicotómicos, ordinales, o continuos. En este sentido, se sugiere el uso de matrices de correlaciones o covarianzas de Pearson para variables continuas, mientras que el uso de matrices de correlaciones policóricas y tetracóricas se ha establecido para variables ordinales y dicotómicas, respectivamente (Ferrando et al., 2022). Vale destacar que, el uso de un coeficiente de confiablidad estará sujeto también a las características del modelo de la variable a medir. Por tanto, en el caso de contar con un modelo unifactorial, se deberá estimar el alfa o el omega para el total de la escala, mientras que, si cuenta con dos o más factores, se deberá calcular el coeficiente para cada una de ellas.
El estudiar la dimensión de la objetividad en la confiabilidad de un instrumento estriba en qué grado la medición de un rasgo es independiente de la subjetividad del evaluador (Tristán-López y Pedraza Corpus, 2017). En este sentido, existen distintos métodos conocidos que dependerá de la naturaleza de la variable que se mida.
El uso de Kappa de Cohen está sujeto a la evaluación del acuerdo entre dos examinadores de una variable medida de manera nominal y en el caso de contar con más de dos examinadores, se debería usar el coeficiente Kappa de Fleiss (Cohen, 1968; Fleiss y Cohen, 1973; McHugh, 2012). En el caso de una variable medida de manera ordinal, se recomienda el uso del coeficiente Tau de Kendall (Hays, 1960; Jinyuan et al., 2016; Lapata, 2006). Por último, para variables continuas, se recomienda el cálculo de coeficientes intraclase (Bartko, 1966; Bland y Altman, 1990; Weir, 2005), los cuales difieren de su interpretación de la mera estimación de una correlación de valores, ya que una correlación establece asociación entre estos, pero no mide acuerdo. Vale mencionar también el método Detection of Multiple Examiners Nor In Consensus (DOMENIC; Baca-García et al., 2001; Cicchetti y Showalter, 1997) que permite calcular el acuerdo entre evaluadores en base a un promedio global de nivel de acuerdo inter-examinador y a la vez, un nivel de acuerdo de cada examinador individualmente (García-Nieto et al., 2012).
Dentro del ámbito de la adaptación de pruebas psicológicas, el concepto de validez ha sido objeto de estudio y debate durante mucho tiempo debido a su naturaleza compleja en términos de definición e interpretación. Actualmente, la validez es entendida como la adecuación, significación y utilidad de las inferencias específicas hechas a partir de las puntuaciones de los tests (APA, 2014). Las puntuaciones de un test evidencian propiedades de validez cuando se comprueba que el test realmente mide el constructo que pretende evaluar.
Antes de entrar en más detalles, cabe realizar una breve reseña histórica del concepto, la cual puede dividirse en tres etapas (Messick, 1995). En sus inicios, el concepto de validez estaba estrechamente asociado a la correlación entre las puntuaciones de un test y alguna medida externa que el test buscaba predecir. Esta perspectiva enfatizaba la importancia de establecer relaciones entre el test y criterios externos para validar su uso y asegurar su precisión en la medición. Para ese entonces, autores como Garrett (1937) y Guildford (1946; citados en Ventura-León, 2016) asociaban la validez con la medición de coeficientes estadísticos que cuantificaban la relación entre el test y una variable de referencia.
En una etapa posterior, en la década de los cincuenta, el concepto de validez experimentó cambios significativos y evolucionó para incluir otras dimensiones. Surgió la validez de contenido, entendida como la medida en que el contenido del test refleja adecuadamente el constructo que se pretende evaluar (Pedrosa et al., 2014) y se introdujo por primera vez el concepto de validez de constructo, especialmente en relación con el análisis factorial. Esta forma de validez se centra en examinar la estructura interna del test y su capacidad para medir el constructo subyacente. Se busca identificar los factores latentes que sustentan el test y su relación con el constructo que se desea medir (Ferrando et al., 2022). En esta segunda etapa, se destaca el modelo tripartito de validez basado en tres tipos: de contenido, de constructo y de criterio, introducido en el año 1966 por la American Educational Research Association (AERA). Dicho modelo ha significado una importante contribución en el campo de la evaluación y medición de variables psicológicas y educativas, teniendo relevancia científica hasta el día de hoy.
Actualmente, la comprensión de la validez se ha ido transformando y ampliando, pasando de una visión limitada centrada en coeficientes a un enfoque más integral y basado en múltiples fuentes de evidencia. Se entiende a la validez como un concepto unitario y refiere al grado en que la evidencia respalda las inferencias realizadas. En este sentido, la validez no es una característica del instrumento, sino una cualidad asociada al uso del instrumento en un contexto particular (Elosua Oliden, 2003). Un test puede ser validado para una población y propósito específico, pero eso no garantiza la validez del test en todas las poblaciones y para todos los propósitos (Knekta et al., 2019). Por ejemplo, no sería correcto asumir que un cuestionario validado para evaluar el nivel de satisfacción laboral en trabajadores de empresas tecnológicas sea igualmente válido para medir el nivel de satisfacción en empleados de una industria diferente, como la agricultura. Los factores y dinámicas que influyen en la satisfacción laboral pueden ser muy diferentes en cada industria, por lo cual se necesitaría validar específicamente ese cuestionario para los agricultores. Entonces, para referirnos a la validez de un test resulta necesario considerar el propósito o interpretación propuesta, así como también el contexto de aplicación.
Desde esta perspectiva, ya no se habla de distintos tipos de validez, sino de diversas fuentes de evidencia. En específico, se proponen cinco tipos de evidencias de validez, las cuales se basan en: el contenido del test, es decir, en qué medida el contenido del test refleja adecuadamente el constructo que se está evaluando; la estructura interna del test, que se refiere a la organización y coherencia de los ítems del test; el proceso de respuesta al test, que busca comprender cómo los individuos responden a las preguntas y tareas del test; las relaciones con otras variables externas, es decir, cómo se correlaciona el test con otras medidas o comportamientos relevantes; y finalmente, las consecuencias de la aplicación del test, evaluando el impacto y las implicaciones del uso del test en las personas evaluadas (AERA et al., 2014).
Las evidencias basadas en el contenido hacen referencia al grado en el que el contenido de un test (sus ítems) reflejan una muestra representativa y relevante del constructo que pretende medir. Este análisis involucra tres aspectos principales: la definición del ámbito temático, el análisis de cómo se representa dicho ámbito y la evaluación de su relevancia (Sireci, 1998). Siguiendo los lineamientos de la APA (APA et al.,1999), el método por excelencia para reunir evidencias de contenido de un test es el juicio de expertos, en el cual un grupo de expertos en el constructo que se busca medir evalúa la relevancia, suficiencia, claridad y coherencia del contenido. Se deben considerar varios aspectos tales como el formato de los ítems, el tipo de tareas requeridas, la claridad de la consigna, la familiaridad con la situación propuesta, el tipo de material utilizado y las posibles diferencias en motivación o ansiedad.
Aunque la evidencia basada en contenido suele ser mayormente cualitativa y se fundamenta en razonamientos lógicos, en ocasiones puede incorporar medidas empíricas de concordancia, especialmente en pruebas de rendimiento y criterio, utilizando índices como la congruencia interjueces o técnicas de escalamiento unidimensional y multidimensional (Elosua Oliden, 2003). Hay estudios que se han encargado de sintetizar los principales avances teóricos y metodológicos referidos a las evidencias de validez de contenido, entre los cuales se destaca el de Pedrosa y cols. (2014).
En relación con las evidencias de constructo, hay que recordar que refiere a en qué medida el test representa la teoría psicológica sobre la que se fundamenta y si permite interpretar las puntuaciones de acuerdo con ello (AERA et al., 2014). Entre los procedimientos más utilizados se cuenta el análisis factorial exploratorio y confirmatorio para el análisis de la estructura interna del instrumento; las matrices multimétodo-multirrasgo (Campbell y Fiske, 1959) que proveen evidencias de validez convergente —correlaciones del mismo constructo evaluado con distintos instrumentos— y discriminante —correlaciones de distintos constructos evaluados con el mismo tipo de instrumento y el análisis de redes para el estudio de la dimensionalidad de los tests (Christensen y Golino, 2021).
En cuanto a la comparación con criterios externos, estos difieren en función de si las evidencias son predictivas, es decir, si el criterio se evalúa luego de haber aplicado el test; concurrentes, cuando el criterio se evalúa al mismo tiempo que el test; o retrospectivas, si el criterio se valora antes de aplicar el test. En todos los casos, los análisis más recomendados son los análisis de correlación y de regresión, así como los de diferencias de medias con cálculo del tamaño del efecto (Cortada de Kohan y Macbeth, 2007).
Las condiciones de la administración de un test pueden influir en la validez y la confiabilidad de sus puntuaciones (Muñiz et al., 2013). Respecto a este punto, la ITC propone dos procedimientos para minimizar cualquier sesgo relacionado con la cultura y el idioma causado por los procedimientos de administración y los formatos de respuesta: (a) preparar materiales e instrucciones claras sobre la aplicación del test adaptado y (b) especificar las condiciones de aplicación del test adaptado que deben seguirse en todas las poblaciones a las que va dirigido (Hernández et al., 2020).
Las dos directrices incluidas en este apartado refieren a que (a) si se observan diferencias en las puntuaciones de los grupos, es menester analizar toda la información relevante disponible incluyendo valores culturales, religiosidad, posición socioeconómica, entre otras y (b) solamente comparar las puntuaciones entre poblaciones cuando el nivel de invarianza ha sido bien establecido.
Un paso esencial en el proceso de adaptación es establecer normas de puntuación específicas para cada población o contexto cultural. Esto permitirá comparar las puntuaciones de los participantes con un grupo de referencia adecuado y obtener una interpretación más precisa de los resultados.
La comparación directa de puntuaciones obtenidas en contextos culturales o lingüísticos diferentes utilizando escalas adaptadas puede ser problemática y poco confiable debido a las diferencias en motivación, trayectorias escolares, valores culturales, nivel de vida, políticas educativas y oportunidades de acceso a la educación entre diferentes grupos o comunidades (Muñiz et al., 2013). Por lo tanto, se recomienda utilizar los estudios comparativos únicamente para comprender las similitudes y diferencias entre los grupos analizados, pero no para establecer comparaciones directas sin considerar los factores contextuales. Resulta necesario demostrar la equivalencia psicométrica y empírica de las escalas para permitir la comparación de puntuaciones.
Estas directrices incluyen (a) proveer toda la documentación técnica referida a las modificaciones, cambios respecto del original, así como toda la evidencia que garantice la equivalencia de las medidas y (b) brindar información clara a los usuarios del test para asegurar las buenas prácticas en la profesión. Como última instancia, tal y como recomienda la ITC, una parte esencial del proceso de adaptación de tests es la creación de una documentación exhaustiva que describa en detalle todo el proceso llevado a cabo, incluyendo los procedimientos de administración, adaptación y validación realizados (Hernández et al., 2020). Además, esto implica dejar disponible información minuciosa acerca de las alteraciones y ajustes efectuados en comparación con el test original. De esta manera, otros investigadores y profesionales podrán evaluar la calidad de la adaptación y replicar los estudios de ser necesario.
El objetivo de este artículo es proveer una guía para la realización de adaptaciones de pruebas a la Argentina que respete fundamentalmente dos aspectos. Por un lado, los criterios internacionales para la adaptación de tests (ITC, 2007) y, por otro, la toma de conciencia acerca de que la adaptación realizada en un país de habla española no garantiza su pertinencia cultural, psicométrica y lingüística en otro país o región hispanohablante. Por ello, en el trabajo se hizo alusión a dos cuestiones fundamentales, la distinción entre constructos etic, emic y pseudoetic provenientes de la psicología transcultural y la importancia de considerar los conocimientos de la ciencia psicológica sobre la influencia de los heurísticos cognitivos en las respuestas a situaciones cotidianas y cómo ello puede influir en la adaptación de tests. En definitiva, la adaptación de tests coadyuva tanto al desarrollo de la ciencia psicológica como al proceder ético en la evaluación y la práctica profesional. Esperamos que esta guía colabore para afianzar una actitud científica y ética en la toma de decisiones y propender las buenas prácticas.