Mejores prácticas

Medición del Acuerdo entre Codificadores: Por qué el Kappa de Cohen no es una buena opción

Este artículo presenta la familia de coeficientes alfa desarrollada por el renombrado profesor Krippendorff en colaboración con un equipo de investigadores cualitativos y especialistas en informática de ATLAS.ti. También describe por qué el kappa de Cohen no es una medida apropiada para el acuerdo entre codificadores.
Susanne
Susanne Friese
Especialista en productos, formador y autor del libro "Análisis de Datos Cualitativos con ATLAS.ti"
  1. Introducción
  2. Selección de un instrumento de medición adecuado
  3. Desarrollar una Medida Alternativa
  4. Familia de coeficientes alfa de Krippendorff - desarrollada para su uso en la investigación cualitativa
  5. alfa binario
  6. Cu-alfa y cu-alfa
  7. Conclusión

Introducción

Este documento presenta la familia de coeficientes alfa desarrollada por Prof. Krippendorff en colaboración con un equipo de investigadores cualitativos y especialistas en informática de ATLAS.ti. También se explica por qué la kappa de Cohen no es una medida apropiada para el acuerdo entre codificadores.

Limitaciones del Kappa de Cohen

Si decide que la medición de la concordancia entre codificadores es esencial para su investigación, la siguiente cuestión es qué medida quiere utilizar. Probablemente recurra a la literatura y busque lo que otros investigadores han utilizado o consulte los libros de texto de su campo. Descubrirá que muchos investigadores utilizan la kappa de Cohen y que esta medida también se recomienda en muchos libros de divulgación, a pesar de que hay mucha literatura que señala las limitaciones de este instrumento de medición Xie (2013) por ejemplo, explica:

"Es bastante desconcertante por qué la kappa de Cohen ha sido tan popular a pesar de la gran controversia que suscita". Los investigadores empezaron a plantear problemas con la kappa de Cohen hace más de tres décadas (Kraemer, 1979; Brennan & Prediger, 1981; Maclure & Willett, 1987; Zwick, 1988; Feinstein & Cicchetti, 1990; Cicchetti & Feinstein, 1990; Byrt, Bishop & Carlin, 1993). En una serie de dos artículos, Feinstein & Cicchetti (1990) y Cicchetti & Feinstein (1990) dieron a conocer las siguientes dos paradojas con la kappa de Cohen:

(1) Un kappa bajo puede ocurrir con un acuerdo alto;

(2) Las distribuciones marginales desequilibradas producen valores más altos de kappa que las distribuciones marginales más equilibradas.

Mientras que las dos paradojas no se mencionan en los libros de texto más antiguos (por ejemplo, Agresti, 2002), se introducen completamente como las limitaciones de kappa en un libro de texto reciente para graduados (Oleckno, 2008). Además de las mencionadas paradojas conocidas, Zhao (2011) describe otras doce paradojas con kappa y sugiere que el kappa de Cohen no es una medida general para la fiabilidad entre evaluadores, sino una medida de fiabilidad que sólo se mantiene bajo condiciones particulares, que rara vez se cumplen.

Krippendorff (2004) sugiere que el Kappa de Cohen no está cualificado como medida de fiabilidad en el análisis de fiabilidad. Su definición de acuerdo de azar se deriva de las medidas de asociación porque asume la independencia de los calificadores. Sostiene que los calificadores deberían ser intercambiables en el análisis de fiabilidad y no independientes. La definición de acuerdo de azar debería derivarse de las proporciones estimadas como aproximaciones de las verdaderas proporciones en la población de datos de fiabilidad. Krippendorff (2004) demuestra matemáticamente que el desacuerdo esperado de kappa no es una función de las proporciones estimadas de los datos de la muestra, sino una función de las preferencias individuales de dos calificadores para las dos categorías".

Xie concluye: Si la kappa de Cohen " se utiliza alguna vez, debería informarse con otros índices como el porcentaje de valoraciones positivas y negativas, el índice de prevalencia, el índice de sesgo y la prueba de homogeneidad marginal."

Otra limitación de la kappa de Cohen es que solo puede utilizarse para dos codificadores y supone un tamaño de muestra infinito (Banerjee, et al 1999; Krippendorff, 2018). En muchos estudios de investigación cualitativa, el límite de dos codificadores no es realmente un problema, pero el tamaño infinito de la muestra es un requisito que nunca puede cumplirse.

Desarrollar una Medida Alternativa

En lugar de utilizar una medida defectuosa, en ATLAS.ti, implementamos la familia de coeficientes alfa de Krippendorff. Una gran ventaja fue que pudimos discutir los detalles de la codificación en la investigación cualitativa con el profesor Krippendorff. Aprendimos de dónde venía y cómo se codifican los datos para el análisis de contenido cuantitativo. Del mismo modo, el profesor Krippendorff aprendió de nosotros cómo codifican los datos los investigadores cualitativos. A partir de la comprensión mutua que desarrollamos, el profesor Krippendorff adaptó los coeficientes alfa para utilizarlos en el análisis de datos cualitativos. Por ejemplo, como es habitual en el análisis de datos cualitativos aplicar múltiples códigos a los mismos segmentos de datos o a los que se solapan, modificó su medida para tener en cuenta la codificación multivalente. Además, amplió la familia de coeficientes alfa para que se pueda desglosar de lo general a lo específico.

En ATLAS.ti, aprendimos sobre la importancia de la codificación mutuamente excluyente para la medida a calcular e introdujimos el concepto de dominio semántico. Un dominio semántico se define como un conjunto de conceptos distintos que comparten significados comunes. También se puede considerar como una categoría con subcódigos. Vea un ejemplo a continuación.

Figura 1: Dos dominios semánticos con sus subcódigos

Familia de coeficientes alfa de Krippendorff - desarrollada para su uso en la investigación cualitativa

La familia de coeficientes alfa de Krippendorff ofrece varias medidas que permiten realizar cálculos a diferentes niveles. Actualmente, los tres primeros coeficientes están implementados en ATLAS.ti.

Figure 2: Krippendorff’s family of alpha coefficients
Figura 2: Familia de coeficientes alfa de Krippendorff

Encontrará más información sobre cómo se calculan los distintos coeficientes aquí.

alfa binario

En el nivel más general, se puede medir si diferentes codificadores identifican las mismas secciones en los datos como relevantes para los temas de interés, representados por códigos. En este nivel se pueden utilizar dominios semánticos, aunque no es necesario. También es posible introducir códigos individuales en el análisis. Se obtiene un valor de binario alfa para cada código o dominio introducido en el análisis y un valor de resumen para todos los elementos del análisis. Para este análisis, se consideran todas las unidades de texto, tanto los datos codificados como los no codificados.

Cu-alfa y cu-alfa

Otra opción es comprobar si diferentes codificadores fueron capaces de distinguir entre los códigos de un dominio semántico. Por ejemplo, si se tiene un dominio semántico llamado EMOCIONES con los subcódigos:

  • ira (anger)
  • la excitación (excitement)
  • miedo (fear)
  • alegría (joy)
  • tristeza (sadness)
  • sorpresa (surprise)

El coeficiente indica si los codificadores fueron capaces de distinguir de forma fiable entre, por ejemplo, "emoción" y "sorpresa", o entre "ira" y "tristeza". El coeficiente cu-alfa le dará un valor para el rendimiento general del dominio semántico. Sin embargo, no le dirá cuál de los subcódigos puede ser problemático. Hay que mirar las citas y comprobar dónde está la confusión.

Figure 4: Illustrating various ways of agreement or disagreement
Figura 3: Ilustración de varias formas de acuerdo o desacuerdo
  1. El codificador 1 y el codificador 2 han aplicado los mismos códigos a las dos primeras citas, es decir, coinciden en el dominio y en el subcódigo del dominio.
  2. A la tercera cita, los dos codificadores han aplicado un código del mismo dominio, pero no coinciden en el subcódigo.
  3. En la cuarta cita, los dos codificadores han aplicado códigos de dos ámbitos diferentes.

Cu-alfa es el coeficiente resumen de todas las cu-alfas. Tiene en cuenta que se pueden aplicar códigos de múltiples dominios semánticos a las mismas citas o a las que se solapan. Por lo tanto, Cu-alfa no es sólo la media de todos los cu-alfas.

Además, Cu-alfa es un indicador de si los distintos codificadores están de acuerdo en la presencia o ausencia de un dominio específico; o se expresan de forma diferente: ¿Los codificadores pudieron identificar de forma fiable que los segmentos de datos pertenecen a un dominio semántico específico, o los distintos codificadores aplicaron códigos de otros dominios semánticos?

Conclusión

La cooperación con el profesor Krippendorff nos dio la oportunidad única de construir y ampliar los métodos existentes para medir el acuerdo entre codificadores. El resultado es la familia de coeficientes alfa descrita aquí, que está adaptada a las necesidades de los investigadores cualitativos.

Eche un vistazo a este video tutorial, para aprender más sobre cómo ejecutar el análisis de concordancia entre codificadores en ATLAS.ti.

Por favor, permita que las cookies de marketing vean el vídeo.
Gestionar las cookies