Este documento presenta la familia de coeficientes alfa desarrollada por Prof. Krippendorff en colaboración con un equipo de investigadores cualitativos y especialistas en informática de ATLAS.ti. También se explica por qué la kappa de Cohen no es una medida apropiada para el acuerdo entre codificadores.
Si decide que la medición de la concordancia entre codificadores es esencial para su investigación, la siguiente cuestión es qué medida quiere utilizar. Probablemente recurra a la literatura y busque lo que otros investigadores han utilizado o consulte los libros de texto de su campo. Descubrirá que muchos investigadores utilizan la kappa de Cohen y que esta medida también se recomienda en muchos libros de divulgación, a pesar de que hay mucha literatura que señala las limitaciones de este instrumento de medición Xie (2013) por ejemplo, explica:
"Es bastante desconcertante por qué la kappa de Cohen ha sido tan popular a pesar de la gran controversia que suscita". Los investigadores empezaron a plantear problemas con la kappa de Cohen hace más de tres décadas (Kraemer, 1979; Brennan & Prediger, 1981; Maclure & Willett, 1987; Zwick, 1988; Feinstein & Cicchetti, 1990; Cicchetti & Feinstein, 1990; Byrt, Bishop & Carlin, 1993). En una serie de dos artículos, Feinstein & Cicchetti (1990) y Cicchetti & Feinstein (1990) dieron a conocer las siguientes dos paradojas con la kappa de Cohen:
(1) Un kappa bajo puede ocurrir con un acuerdo alto;
(2) Las distribuciones marginales desequilibradas producen valores más altos de kappa que las distribuciones marginales más equilibradas.
Mientras que las dos paradojas no se mencionan en los libros de texto más antiguos (por ejemplo, Agresti, 2002), se introducen completamente como las limitaciones de kappa en un libro de texto reciente para graduados (Oleckno, 2008). Además de las mencionadas paradojas conocidas, Zhao (2011) describe otras doce paradojas con kappa y sugiere que el kappa de Cohen no es una medida general para la fiabilidad entre evaluadores, sino una medida de fiabilidad que sólo se mantiene bajo condiciones particulares, que rara vez se cumplen.
Krippendorff (2004) sugiere que el Kappa de Cohen no está cualificado como medida de fiabilidad en el análisis de fiabilidad. Su definición de acuerdo de azar se deriva de las medidas de asociación porque asume la independencia de los calificadores. Sostiene que los calificadores deberían ser intercambiables en el análisis de fiabilidad y no independientes. La definición de acuerdo de azar debería derivarse de las proporciones estimadas como aproximaciones de las verdaderas proporciones en la población de datos de fiabilidad. Krippendorff (2004) demuestra matemáticamente que el desacuerdo esperado de kappa no es una función de las proporciones estimadas de los datos de la muestra, sino una función de las preferencias individuales de dos calificadores para las dos categorías".
Xie concluye: Si la kappa de Cohen " se utiliza alguna vez, debería informarse con otros índices como el porcentaje de valoraciones positivas y negativas, el índice de prevalencia, el índice de sesgo y la prueba de homogeneidad marginal."
Otra limitación de la kappa de Cohen es que solo puede utilizarse para dos codificadores y supone un tamaño de muestra infinito (Banerjee, et al 1999; Krippendorff, 2018). En muchos estudios de investigación cualitativa, el límite de dos codificadores no es realmente un problema, pero el tamaño infinito de la muestra es un requisito que nunca puede cumplirse.
En lugar de utilizar una medida defectuosa, en ATLAS.ti, implementamos la familia de coeficientes alfa de Krippendorff. Una gran ventaja fue que pudimos discutir los detalles de la codificación en la investigación cualitativa con el profesor Krippendorff. Aprendimos de dónde venía y cómo se codifican los datos para el análisis de contenido cuantitativo. Del mismo modo, el profesor Krippendorff aprendió de nosotros cómo codifican los datos los investigadores cualitativos. A partir de la comprensión mutua que desarrollamos, el profesor Krippendorff adaptó los coeficientes alfa para utilizarlos en el análisis de datos cualitativos. Por ejemplo, como es habitual en el análisis de datos cualitativos aplicar múltiples códigos a los mismos segmentos de datos o a los que se solapan, modificó su medida para tener en cuenta la codificación multivalente. Además, amplió la familia de coeficientes alfa para que se pueda desglosar de lo general a lo específico.
En ATLAS.ti, aprendimos sobre la importancia de la codificación mutuamente excluyente para la medida a calcular e introdujimos el concepto de dominio semántico. Un dominio semántico se define como un conjunto de conceptos distintos que comparten significados comunes. También se puede considerar como una categoría con subcódigos. Vea un ejemplo a continuación.
La familia de coeficientes alfa de Krippendorff ofrece varias medidas que permiten realizar cálculos a diferentes niveles. Actualmente, los tres primeros coeficientes están implementados en ATLAS.ti.
Encontrará más información sobre cómo se calculan los distintos coeficientes aquí.
En el nivel más general, se puede medir si diferentes codificadores identifican las mismas secciones en los datos como relevantes para los temas de interés, representados por códigos. En este nivel se pueden utilizar dominios semánticos, aunque no es necesario. También es posible introducir códigos individuales en el análisis. Se obtiene un valor de binario alfa para cada código o dominio introducido en el análisis y un valor de resumen para todos los elementos del análisis. Para este análisis, se consideran todas las unidades de texto, tanto los datos codificados como los no codificados.
Otra opción es comprobar si diferentes codificadores fueron capaces de distinguir entre los códigos de un dominio semántico. Por ejemplo, si se tiene un dominio semántico llamado EMOCIONES con los subcódigos:
El coeficiente indica si los codificadores fueron capaces de distinguir de forma fiable entre, por ejemplo, "emoción" y "sorpresa", o entre "ira" y "tristeza". El coeficiente cu-alfa le dará un valor para el rendimiento general del dominio semántico. Sin embargo, no le dirá cuál de los subcódigos puede ser problemático. Hay que mirar las citas y comprobar dónde está la confusión.
Cu-alfa es el coeficiente resumen de todas las cu-alfas. Tiene en cuenta que se pueden aplicar códigos de múltiples dominios semánticos a las mismas citas o a las que se solapan. Por lo tanto, Cu-alfa no es sólo la media de todos los cu-alfas.
Además, Cu-alfa es un indicador de si los distintos codificadores están de acuerdo en la presencia o ausencia de un dominio específico; o se expresan de forma diferente: ¿Los codificadores pudieron identificar de forma fiable que los segmentos de datos pertenecen a un dominio semántico específico, o los distintos codificadores aplicaron códigos de otros dominios semánticos?
La cooperación con el profesor Krippendorff nos dio la oportunidad única de construir y ampliar los métodos existentes para medir el acuerdo entre codificadores. El resultado es la familia de coeficientes alfa descrita aquí, que está adaptada a las necesidades de los investigadores cualitativos.
Eche un vistazo a este video tutorial, para aprender más sobre cómo ejecutar el análisis de concordancia entre codificadores en ATLAS.ti.