Las competencias y el valor de las medallas…

A pesar de ser un blog sobre ciencia y cerveza, para este artículo vamos a tener que consultar bibliografía académica del mundo del vino. Si bien hablamos de dos bebidas alcohólicas diferentes, existen paralelismos innegables en las técnicas de cata; más allá de que se evalúan distintos parámetros, con distintos valores de referencia, y que difere lo que constituye un off-flavour en cada bebida. Además, las competencias se organizan de formas similares (background de los jueces, organización de los flights, etc.) aunque las muestras se califican de forma diferente. Los resultados que presentaremos pueden servir para darnos una idea de qué resultados obtendríamos si se replicasen los mismo análisis a los jueces de una competencia cervecera. A pesar de esto, es importante entender que no hay ninguna garantía de que fuesen similares.

Para comenzar a dar el debate vamos a ver en detalle dos trabajos de Hodgson: (Hodgson, 2008) y (Hodgson, 2009).

¿Son confiables los jueces?

En el primer trabajo Hodgson se dedica a poner a prueba, es decir, medirles su consistencia, a los jueces de una competencia de vino importante de EEUU (California State Fair) a lo largo de 4 años.

¿Qué entendemos por consistencia? Según la definición de Hodgson es la capacidad de los jueces de darle el mismo puntaje al mismo ejemplar evaluado en dos momentos diferentes. Es importante distinguir la consistencia de la concordancia; el acuerdo en el puntaje de un ejemplar entre los diferentes jueces, que es también otra forma de abordar la confiabilidad de los jueces.

Para responder a esta pregunta Hodgson incluyó tres muestras de cuatro vinos (cada muestra servida de la misma botella), distribuidos aleatoriamente en flights de cata, de aproximadamente 30 muestras totales, que  analizó el mismo panel. Idealmente se incluyeron las 12 muestras en el mismo flight. Esto se hizo para favorecer la probabilidad de que los jueces pudiesen replicar sus puntajes de cata. El muestreo fue efectuado a 16 paneles de catas cada año, a lo largo de cuatro años (la competencia utilizada para el análisis es anual).

Antes de analizar los resultados, un pequeño paréntesis sobre el puntaje en esta competencia de vino. Los jueces dan un puntaje al vino de “sin mención”, o alguna de las tres medallas: bronce, plata, u oro. Para cada medalla se indica un calificante: -, =, +, que luego se usa para convertir en una escala de 100 puntos: con 80 (o menos) puntos vinos que no obtienen medalla, una medalla de bronce corresponde a un vino con más de 84 puntos, plata con más de 90 y oro con más de 96.

¿Qué resultados experimentales obtuvo?

  • Los jueces fueron “perfectamente consistentes”, es decir que sus puntajes no variaron, menos del 20% de las veces. Sin embargo, esto ocurrió mayormente para vinos de bajo puntaje.
  • Sólo el 10% de los jueces fueron sistemáticamente consistentes en puntajes que no diferían en más de 4 puntos (máxima extensión en puntos de una misma categoría de medalla)
  • El 10% de los jueces otorgaron al mismo vino puntajes que iban entre bronce y oro o de “sin mención” a oro.

Además, cabe destacar que los resultados anteriores fueron similares en los cuatro años que se efectuó el experimento.

El autor calcula la desviación estándar para cada juez, que en términos estadśticos nos mide la dispersión en los datos: es decir, cuán similares son el puntajes que asigna el mismo juez a dos muestras distintas (que corresponden al mismo vino). Además, calcula la desviación estándar agrupada, es decir que representa a todos los jueces. El autor concluye que para obtener un intervalo de confianza (ver paréntesis abajo) del 95% para la media agrupada, debemos tomar un intervalo de 14 puntos: que abarca desde “sin medalla” hasta Oro- o desde Bronce a Oro+. Prácticamente diciendo que no es posible acotar la dispersión de los datos.

[Pequeño paréntesis: Un intervalo de confianza en estadística nos quiere decir que la probabilidad de que el valor de lo que estamos buscando esté realmente en dicho intervalo es del 95% (o sea que solo el 5% de las veces el valor real estará fuera del intervalo calculado)].

Además, el autor busca responder a la pregunta de si los jueces consistentes lo son año a año? Pues de serlo, uno podría imaginar que los jueces más consistentes “entrenen” a los menos consistentes, buscando mejorar la consistencia del panel. Para ello mira la correlación de los datos entre jueces que participaron múltiples años, y no encuentra correlación. Es decir, que una buena performance de un juez un año, no implica que también la tendrá en el futuro.

A nivel de los paneles, realizó distintos análisis con el objetivo de calcular cuántos buenos paneles había (del total de 65 muestreados a lo largo de los cuatro años). Para ello determinó en cuantos paneles el puntaje otorgado por el juez estuvo dado por las características del vino y no el bias de los jueces. Encontró que esa fue la situación de sólo el 45% de los casos, en el resto de los paneles o bien el bias de los jueves también jugó un papel, o las características del vino no jugaron un papel en la puntuación asignada.

Más allá de que estos resultados no puedan explicar porque un vino puede sacar oro en una competencia y nada en otra, nos permiten hacer la predicción de que un vino que saque una medalla en una competencia, puede, o bien ganar cualquier tipo de medalla medalla, o bien ninguna, en otra competencia.

¿Hay acuerdo entre competencias?

En el segundo trabajo, Hodgson buscó entender qué relación había entre los resultados para vinos que ganaron una medalla en una competencia, cuándo eran presentados en otra competencia. Para ello se basó en un conjunto de datos que seguían el resultado obtenido por más de 4000 vinos en 13 competencias (e importantemente, los datos indican no sólo si ganó medalla sino también si el vino fue presentado).

Los primeros resultados los obtuvo analizando los 375 vinos que se presentaron a cinco competencias: 35% (132) recibieron al menos una medalla de oro, 20 dos, 6 tres y ninguno más de tres medallas de oro. Además observó algunas cuestiones interesantes que nos permiten entender la consistencia que hubo entre competencias:

  • El 75% de los que obtuvieron al menos una medalla de oro, no obtuvieron nada en alguna otra de las cinco competencias.
  • Otro 20%, de los que obtuvieron al menos una medalla de oro, recibieron como puntuación más baja entre las 5 competencias el bronce.
  • De los 6 vinos que recibieron 3 medallas, 2 no recibieron mención en otra competencia y los cuatro restantes al menos una de bronce.

En resumen, el 35% de los que fueron presentados a cinco competencias lograron al menos un oro. El 98% de los que ganaron al menos un oro, no recibieron nada o a lo sumo una medalla de bronce en algun de las otras 4 competencias.  Similarmente, para el caso de vinos presentados a más de tres competencias, el 47% sacó alguna medalla de oro y el 98% que sacaron al menos un oro puntuaron o bien bronce o nada en al menos una de las otras competencias.

Un dato super interesante es sobre la concordancia de los resultados entre competencias. Sólo hubo 25 instancias dónde las cinco competencias acordaron en el puntaje (en +/- cinco puntos), de los 375 vinos considerados, y corresponden exclusivamente a vinos que nunca puntuaron más de un bronce. El autor postula que esto se debe a que los catadores concuerdan mucho más en qué no es de buena calidad, que qué sí lo es. Esto es importante a tener en cuenta ya que al menos establece que los ejemplares, para ganar, han de ser de “calidad”.

De un análisis de las correlaciones entre los resultados obtenidos por cada vino en las distintas competencias, determinó que el desempeño de un vino en una competencia no se correlaciona con el desempeño que tendrá en otra.

¿Es simplemente azar?

Lo próximo que se propone el autor es a responder sí sacar una medalla corresponde simplemente al azar. Para ello logra un ajuste de los datos anteriores a una distribución binomial con un valor de probabilidad de 9%.

[Otro pequeño paréntesis: una distribución binomial nos brinda una idea de la cantidad de “éxitos” que podemos esperar de repetir un evento (cuyo resultado es verdadero/falso) que tiene una probabilidad fija de ocurrir e independiente de cada ensayo.]

En términos simples, encuentra que si la probabilidad de recibir una medalla de oro en una competencia es del 9%, y considerando que los resultados de una competencia no tienen ninguna injerencia sobre los de las demás (independencia), los valores obtenidos del modelo se predicen los que se observa en la realidad.

Este análisis y la fundamentación del ajuste, le permite al autor concluir que la posibilidad de ganar una medalla puede ser explicada, de manera estadística, por el azar.

Conclusiones

Los jueces no son perfectos. Y por ende los comentarios de una ficha de cata deben ser entendidos en este contexto. Es por ellos que es importante guardar muestras para ver si uno mismo u otro grupo de catadores comparten el análisis de los jueces. Esto es particularmente importante cuando indican off-flavours, ya que no todos tenemos el mismo umbral de percepción de los compuestos aromáticos y es importante entender si tenemos un punto ciego o si el juez encontró una falla que no es tal.

Para tener medallas hay que perseverar. Más allá de la calidad intrínseca del producto, y las estrategias enfocadas en sacar una medalla (que se puedan aplicar en el desarrollo de la receta, la elaboración de la cerveza, su envasado y envío), que obviamente ayudan, es necesario persistir.

Sería interesante ver de aplicar los mismos análisis en las competencias cerveceras (ya sean de micro-cervecerías o cerveceros caseros). ¿Alguna organización voluntaria?

Referencias

6 comentarios sobre “Las competencias y el valor de las medallas…

  1. Es todo un tema lo de las medallas. Para el productor serio debería estar claro que los resultados de una competencia no son la última palabra, sean positivos o negativos.

    Por otro lado están los consumidores, que si ven un producto luciendo medallas van a creer que están comprando calidad asegurada. Pero claro, aunque una receta gane medalla, nada asegura que a los meses o pocos años el productor mantenga la receta intacta y entregue el mismo producto que ganó.

    A mí me parecen super válidas las competencias, aunque estén sujetas a muchos errores. Las medallas entregadas también, aunque a estas alturas no me creo todo lo que los publicistas me quieren vender.

    Saludos!

    Me gusta

  2. Un juez (de lo que sea) es una persona con más entrenamiento y formación en análisis sensorial de un determinado producto que el resto. Es decir que, como en cualquier disciplina, habrá principiantes y personas que tengan un alto grado de entrenamiento.
    A esto debe sumársele que, como seres humanos, todos tenemos diferentes umbrales de percepción a distintos descriptores. A su vez la formación de cada uno y el área donde ejercen su entrenamiento muchas veces los lleva a ser más sensibles a algunas sustancias que a otras; es decir que dos personas naturalmente van a encontrar diferente a la misma cerveza.
    Si mezclamos todo lo anterior fácilmente concluímos que en óptimas condiciones de cata (ambiente, servicio, cristalería) una persona puede catar una cerveza y encontrar determinadas características y asignarle un puntaje. Al año siguiente, con más catas a cuestas, aprendizaje por estudio y por compartir experiencias con otros cerveceros y jueces y por propio entrenamiento, esta misma persona podría catar esa misma muestra y encontrar nuevas características o encontrar que el balance que le pareció fabuloso un año atrás ya no lo encuentra igual y, obviamente, asignarle un puntaje diferente (o al revés: una cerveza que consideró mala, pasó a tener un mejor puntaje un año después porque el juez evolucionó). Esto hablando de exactamente la misma cerveza evaluada bajo exactamente las mismas condiciones de cata, pero también existen algunos factores que disminuyen nuestras percepciones: consumir alimentos muy calientes (comidas e infusiones), falta de descanso, fumar, el consumo de drogas, resfríos y un largo etcétera.
    Yendo al puntaje asignado, muchas veces se da el caso en que el puntaje final asignado por dos jueces diferentes para una misma muestra puede ser igual, pero los parciales muy diferentes. También juegan un rol importante las reglas de la competencia: el mecanismo de cata, la guía y agrupación de estilos elegida, la cantidad de muestras, descansos programados, etc.
    Lamentablemente en muchas competencias el comportamiento de los jueces (principiantes y no tanto) dista mucho de ser profesional y en algunos casos la organización de la misma competencia coopera en ese sentido incitando la falta de profesionalismo.
    Me parece que por más que un juez evalúe una misma cerveza con un año de diferencia (suponiendo que la cerveza es exactamente la misma), una de esas veces en óptimas condiciones y la otra en las peores, ¿cuánto variaría el puntaje final que obtiene esa muestra? Yo creo que para un único juez puede variar mucho, pero para reducir ese margen de error cada muestra se evalúa por al menos 2 jueces (generalmente 3 y he participado de una competencia con 6 jueces por mesa), donde la misma mesa se encargará de acomodar ese puntaje, con lo que a fines prácticos esa diferencia sería mínima. Es más probable que una cerveza no repita medalla por falta de mérito propio (consistencia entre lotes) o por los competidores a los que enfrenta que por la mesa de cata que la evalúa.

    Algo que me resulta curioso del artículo: ¿qué se considera una “buena performance” de un juez?

    El hecho de que un juez no ponga el mismo puntaje a una misma cerveza en iguales condiciones claramente habla de falta de consistencia, pero aquí me permito modificar un poco el foco de la discusión: ¿realmente necesitamos consistencia?
    Al fin y al cabo, no todas las cosechas de una misma parcela de vid ganan premios. Desde el mundo craft es muy difícil mantener consistencia entre lotes, principalmente por las materias primas utilizadas y las personas involucradas en el proceso de elaboración.
    Una medalla en un concurso, me dice que una partida de ese alimento fue mejor que sus competidores al momento de la cata.
    Esto claramente implica un mérito, pero no olvidemos que depende del lote, del método de envasado, del tratamiento en viaje, recepción y tratamiento hasta el momento de la evaluación, panel de cata, reglamento y competidores!
    Todas las medallas se otorgan a un producto porque no hubo otra muestra inscripta mejor que esa basándose en las reglas de la propia competencia.
    En caso de guardar un testigo para probar con las devoluciones en mano, hay una gran parte de las condiciones de cata que no se están replicando (cambios de presión y temperaturas por viaje). Lo más simple para acercarse a eso es dejar esos testigos sin frío.

    Sí es cierto que algunas medallas de algunos concursos tienen muy poco valor en el ambiente cervecero, y espero que tarde o temprano terminen decantando las competencias menos prestigiosas, pero me parece que el foco está ahí y no hay mucho que podamos hacer.

    Me gusta

    1. Respondo tu pregunta, el resto es más para una charla con cerveza de por medio…. como ya hemos tenido… Cómo definir la performance de un juez? No lo sé con exactitud pero para mi la reproducibilidad, es decir que pueda dar una devolución similar ante una muestra similar (similar siendo complejo de definir, pero aquí abusado sólo para dar una idea) es crucial y creo que eso es justamente lo que el autor de los artículos que cito cuestiona. Para mi si un juez no es consistente, no sirve. Y no me refiero a un mal día. Me refiero a un día que él se sienta “normal” pero que no pueda dar devoluciones similares, porque entonces termina siendo mucho más aleatorio de lo que todos queremos…

      Me gusta

      1. Creo que la respuesta podría estar en ver cómo trabaja un panel de cata de una cervecería industrial, tipo Heineken (a nivel global hablo, no sólo en Argentina) y ver qué medidas toman ellos para evitar estos sesgos. Me refiero a ambiente en el que se cata, tiempos de descanso, actividades permitidas, evaluación de cada juez antes de iniciar una sesión de cata, entrenamientos regulares, etc.
        Me resulta súper interesante el tema y coincido en que da para la charla cerveza de por medio. Esperemos que nos lo permita pronto la cuarentena.

        Abrazo!

        Me gusta

      2. En los paneles de cata dentro de organizaciones es común evaluar a los jueces adulterado muestras (dentro de un vuelo de muestras go o no go, por ejemplo) y descartar datos de jueces que no estén en su nivel normal de performance.

        Me gusta

  3. Para hacer algo así a nivel concurso debería existir una planilla de umbrales de percepción de cada juez que participa y realizar un par de rondas de calibración de todos individualmente con las mismas muestras (puede que con un orden diferente para cada uno) y sólo dejar catar o considerar las planillas de los que no alcanzaron su nivel esperado.
    Esto genera múltiples potenciales inconvenientes, ya que no tomar en cuenta las planillas de alguien que costó un dinero a la organización (y generalmente al mismo juez) es dinero tirado a la basura. Podría contrarrestarse aumentando la cantidad de jueces por mesa a 6 (por ejemplo) y asignar las mesas de cada uno después de la prueba, con lo que a cada mesa le toca uno o dos cuyos devoluciones no serán consideradas.
    Obviamente al inicio de cada día de cata se vuelve a hacer la calibración y distribución de mesas.
    El inconveniente de esto es que el análisis de todos esos datos requiere sí o sí de la ayuda de un software para poder hacerlo en el momento. Los costos asociados al desarrollo del software y de sumar jueces a la competencia podría ser trasladando al costo de la inscripción de cada muestra, pero ahí nos encontramos con otro inconveniente: a los fines prácticos, son pocas las cervecerías interesadas en participar de competencias “justas”; la mayoría entiende a la medalla como un medio de potenciar ventas, por lo que seguirán participando de las copas de leche y promocionando sus cervezas como medallistas en sus redes sociales y canales de ventas, con lo que me temo que difícilmente ese tipo de competencia sea rentable.
    De todas formas me parece que la parte del software no está tan lejos y me parece que como experimento sería excelente y creo que una vez desarrollada esa parte, a pequeña escala no es tan difícil hacer una prueba en un concurso real.

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s