En esta ocasión vengo a presentarles una serie de temas basados en mis trabajos a lo largo de la carrera, estos temas serán tan variados como organismos celulares y abarcaran desde lo micro hasta lo macro de la biología y de la matemática, física, química y computación aplicadas a la biología. Como han podido ver en el título de este post hoy tocaremos el tópico de la estadística como herramienta para confirmar las investigaciones. La estadística se define tradicionalmente como una metodología de organización, análisis, resumen y presentación de datos numéricos cuya función principal es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la incertidumbre.
Actualmente la generalización de resultados basados en conocimientos previos y la generación de modelos funcionales toman en cuenta lo complejo de los sistemas que llamamos seres vivos, para este tipo de casos existe la llamada estadística multivariada, específicamente estaremos haciendo uso de dos herramientas de alto impacto, como lo son el análisis de componentes principales y el análisis factorial. Las herramientas estadísticas aplicadas a lo largo de la publicación están estructuradas a manera de “paso a paso” para el análisis estadístico de este tipo en datos biológicos y son consideradas como los estudios básicos y fundamentales que deben ser aplicadas a cada investigación para demostrar su veracidad y reproducibilidad en la comunidad científica a nivel mundial.
Los animales venenosos han desarrollado estrategias químicas sofisticadas para capturar presas y defenderse de los depredadores, la mayoría segregan venenos que contienen sustancias con una amplia variedad de actividades farmacológicas con el fin de interferir de forma aguda con la fisiología de la presa o depredador (Yang et al., 2013). Los ciempiés se distribuyen ampliamente, especialmente en la región tropical, hay unas 620 especies que son de importancia médica pertenecientes al género Scolopendra (Jarrar, 2010). Se ha demostrado que el veneno de algunos scolopendromorphos contiene neurotoxinas, estas son herramientas esenciales en el análisis de la conducción axonal (Sattelle et al., 1979). Para evaluar dicho efecto se usó aPeriplaneta americana, entre otras razones porque la preparación del cordón nervioso es fácilmente manejable. El objetivo de esta investigación fue evaluar el efecto del veneno de Scolopendra gigantea sobre el sistema nervioso central del ganglio neuronal de Periplaneta americana y relacionar dichos efectos con variables morfométricas mediante análisis estadísticos multivariados.
Es imperativo el realizar un análisis previo de los datos para saber el “punto de partida” a nivel estadístico, ya que estos deben cumplir con una serie de cláusulas y condiciones que les permitan estar lo mejor adaptados a las leyes por las que las herramientas estadísticas se rigen, sobre todo porque a nivel de sistemas complejos se producen lo que se denominan “propiedad emergentes” y así evitar, por ejemplo: variables nominales en análisis cuantitativos o aplicarle un análisis a intervalos continuos a un set de datos netamente discretos.
Operacionalización de las variables
Variable | Escala de medición | Intervalo a evaluar | Descripción | Indicador |
Longitud total | De relación | 30-45mm | Base posterior del abdomen y la punta de la cabeza (mm) | Valor real |
Longitud cercal | De relación | Sin definir | Entre la punta de un cerco y la base del 4to ganglio abdominal. | Valor real |
Número de espigas | De relación | Sin definir | La media de la cantidad de potenciales de acción más probablemente asociados a una señal biológica. | Valor real |
Peso | De relación | Hasta 1,5g | Según el peso del individuo completo en gramos | Valor real |
Sexo | Nominal | 1:Macho y 2: Hembra | Según estructuras reproductivas | Índice único |
Frecuencia instantánea máxima | De relación | Sin definir | Mayor cantidad de espigas por segundo en un registro | Valor real |
Perdida de la actividad inicial | Ordinal | Sin definir | La media de la cantidad de potenciales de acción | Porcentaje |
Edad | Ordinal | 1:Preadulto y 2: Adulto | Según coloración, presencia de alas y de aparato reproductivo | Índice único |
Análisis previo de los datos (Past v 2.17)
Se aplicó la prueba de normalidad de Shapiro-Wilk y de Multinormalidad de Doornik y Hansen al set de variables medidas para la investigación, con un N (número de cucarachas utilizadas en el experimento) de 24 y se observó que la mayor parte de las variables individuales no cumplen con el requisito de normalidad, pero el sistema como tal cumple con multinormalidad como se puede observar en el p-valor de 0,231 (la condición se confirma si este valor es >0,05).
Ahora sí, comenzamos con la parte buena de este riguroso pero muy necesario análisis e interpretación de datos multivariados en investigaciones de biología, en este caso de electrofisiología y morfometría de invertebrados y toxinología de Scolopendra gigantea.
Figura 1. (De arr. a aba.) Estadística descriptiva. Matriz de correlación.
Basado en los valores de correlación y en el determinante (y a su vez este último es diferente de cero, lo cual es beneficioso para el análisis, de lo contrario indicaría que algunas de las variables son linealmente dependientes y no podría procederse a realizar un análisis de factores) se puede observar en la figura 1 que hay una alta correlación entre las variables, siendo la mayor parte de estas estadísticamente significativas, como por ejemplo longitud total con el resto de las variables estudiadas. Esto puede servir como indicador del arreglo final del constructo en cada componente principal. Para que el análisis sea fructífero es conveniente que la matriz contenga grupos fuertemente relacionados entre sí, mientras más próxima a una matriz identidad más probablemente el análisis factorial conducirá a una solución deficiente.
Se estudió también la medida de la adecuación muestral de los datos con la prueba de Kaiser-Meyer-Olkin (KMO) contrasta si las correlaciones parciales entre las variables son pequeñas, toma valores entre 0 y 1, e indica que el análisis factorial es tanto más adecuado cuanto mayor sea su valor. Así, Kaiser propuso en 1974 el siguiente criterio para decidir sobre la adecuación del análisis factorial de un conjunto de datos:
0,9<KMO=1,0 = Excelente adecuación muestral.
0,8<KMO=0,9 = Buena adecuación muestral.
0,7<KMO=0,8 = Aceptable adecuación muestral.
0,6<KMO=0,7 = Regular adecuación muestral.
0,5<KMO=0,6 = Mala adecuación muestral.
0,0<KMO=0,5 = Adecuación muestral inaceptable.
Según los resultados del análisis y la propuesta de Kaiser los datos poseen una aceptable adecuación muestral con un valor exacto de 0,794, por lo que la data podría llegar a presentar una buena coalescencia en por lo menos un componente. Mediante el uso del inverso de la matriz de correlación se pudo concluir que al poseer valores mayores a uno en su diagonal, los coeficientes de correlación asociados a estas variables son positivos y permiten el cómputo de correlaciones múltiples de cada variable con todas las demás en la data.
Figura 2. (de arr. a aba.) Matriz anti-imagen. Comunalidades.
La matriz anti imagen (figura 2 arriba) contiene en sus valores no diagonales las correlaciones parciales negativas y en su diagonal, los MSA, estos indican que tan adecuado es el análisis para cada variable, se puede observar que en su mayoría los datos tienen una adecuación aceptable, exceptuando perdida de la actividad neuronal, recordando la prueba de KMO, esta es una especie de resumen de que tan pequeñas son las correlaciones parciales relativas a las originales (orden cero) en el análisis. Se observan en la figura 2 (abajo) los valores (entre 0 y 1) asociados a la proporción de la varianza de cada variable que puede ser explicada o encontrarse bien representada por los componentes (constructos) luego de aplicar el método de extracción; mientras más información retenida (varianza) haya de cada variable después de aplicado el método, mayor serán los valores en la columna “Extraction”. En este caso no se observa ninguna pérdida significativa de la información en el set de variables estudiadas, lo cual indica que, seguramente, una menor cantidad de componentes principales explicaran una mayor parte de la varianza total del sistema.
Figura 3. Varianza total explicada.
En el panel izquierdo de la figura 3 (Initial Eigenvalues) se reportan entre que primeros tres componentes principales explican en su suma el 91% de la varianza total del sistema, para esto no se usó ningún parámetro de selección en cuanto a cantidad de componentes finales extraídos. Solo los componentes con un valor “Total” mayores o igual a uno entran en el análisis como constructo o componente principal. “Total” contiene lo valores de Eigen (varianzas de los componentes o factores), siendo siempre el primero, el que mayor valor de Eigen tenga y explique la mayor cantidad de varianza total del sistema.
Por otra parte, los valores luego de la extracción (panel derecho) se calculan de la misma manera que en el panel izquierdo, solo que esta vez de basan en la varianza común entre las variables. Siempre la varianza común es menor que la varianza total del sistema, por lo que se cree hubo un error al momento de elegir los parámetros de análisis en el programa. Luego de haber realizado este análisis se observó la llamada “matriz de correlación reproducida”, esta se basa en los componentes o factores extraídos y al tener valores similares a los encontrados en la matriz de correlación original, se verifica que los dos o tres componentes o factores extraídos son los suficientemente robustos como para representar la mayor parte de la varianza encontrada en la matriz de correlación original y se puede constatar esto observando la matriz de residuales, esta contiene las diferencias entre la matriz de correlaciones original y reproducidas, a mayor cantidad de numero pequeños, menor es la cantidad de varianza no representada por los componentes principales extraídos.
El objetivo final del análisis de componentes principales es obtener una muestra gráfica final, previo a esto se pueden observar las magnitudes y direcciones de las variables asociadas a cada uno de los dos componentes que se extrajeron del análisis que, en este caso, arrojan una alta presencia de variables diferentes a aquellas relacionadas a “pérdida de la actividad eléctrica” en el primer componente principal, por su parte, en el segundo componente principal esta es la variable con la mayor cantidad de varianza explicada en dicho constructo, compensando así la falta de representación en el primer componente principal.
Figura 4. Biplot mostrando los primeros 2 CP.
Finalmente, se observa la distribución tanto de los casos como de las variables con respecto al origen (figura 4), el CP1 posee la mayor parte de la información electrofisiológica y morfométrica evaluada, mientras que el CP2 se refleja principalmente la resistencia del sistema ante el tratamiento (pudiendo incluso estar asociado a cambios hormonales que disminuyan la robustez de los individuos por el ciclo reproductivo de las hembras). Se cumplió entonces con el objetivo de reducir la dimensión del sistema, en el sentido de que un número grande de variables iniciales, se redujo a dos nuevas variables, denominadas Componentes, que son combinación lineal de las originales. La reducción no supone en ningún caso pérdida de la información relevante proporcionada por las primeras variables. Este método se puede usar para realizar estudios multivariantes posteriores, como un Análisis Cluster, o construir un modelo de Regresión utilizando pocos datos dados por los Componentes en lugar de los muchos proporcionados por las variables iniciales.
Análisis factorial (IBM SPSS Statistics v 20)
Figura 5. (De arr. a aba.) Comunalidades. Varianza total explicada.
Se observa en la figura 5 poca disminución o pérdida de información sobre la varianza de cada variable en el sistema luego de aplicar el método de extracción. En la región inferior de la figura 6, se puede apreciar que el panel izquierdo y central de la figura muestran la misma situación con respecto a la figura 6, aun así, se observa que luego de la rotación hay un aumento en la cantidad de información retenida por el segundo factor, pasando de un valor total de 1,23 a uno de 3,52. Se dice entonces que se ha encontrado una solución con mayor ajuste de los factores con respecto a cada eje del plano cartesiano. Además se confirmó mediante la matriz componente (método de extracción: ACP) una buena representación asociada a altos valores de correlación de todas las variables exceptuando “pérdida de actividad” en el 1er factor, por otro lado la varianza de esta variable se encuentra bien explicada por el 2do factor.
Figura 6. Grafica de las variables asociadas a cada factor luego de la rotación.
Se puede observar finalmente en la figura 6 el grafico en espacio rotado con pérdida de la ortogonalidad una de las configuraciones posibles del conjunto de variables que se encuentran mejor representadas en general por el primer factor, es decir, se encuentran más cercanas al eje X, esto permite reducir al mínimo el número de factores a partir de un número inicial de variables, pero el objetivo de este método multivariante, es precisamente, identificar y cuantificar estos Factores que son comunes en el sistema. Por otro lado, el Análisis de Componentes Principales no exige condiciones previas acerca de la estructura de los datos de partida, mientras que el Análisis Factorial, supone la existencia de un Modelo que ha generado dichos datos.
Referencias bibliográficas
• Jarrar, B. (2010). Morphology, Histology and Histochemistry of the Venom Apparatus of the centipede, Scolopendra valida (Chilopoda, Scolopendridae). Int. J. Morphol. 28(1):19-25.
• Sattelle, D., Pelhate, M. & Hue, B. (1979). Pharmacological properties of axonal sodium channels in the cockroach Periplaneta Americana L. Journal exp. Biol. 83: 41-48.
• Yang, S., Xiao, Y., Kang, D., Liu, J., Li, Y., Undheim, E., Klint, J., Rong, M., Lai, R. & King, G. (2013). Discovery of a selective NaV1.7 inhibitor from centipede venom with analgesic efficacy exceeding morphine in rodent pain models. Proceedings of the National Academy of Sciences. 110:34-39.
Todas las figuras y gráficos fueron diseñados por mi.
Cabe destacar que esta es la primera parte del análisis e interpretación de datos multivariados en electrofisiología de Periplaneta americana y toxinología de Scolopendra gigantea, debido a varias razones de peso, principalmente para hacerles más amena la lectura de este tema tan pesado y a la vez enormemente interesante. Descuiden que estaré regresando para exponerles tres métodos de análisis igual de útiles y primordiales en la investigación científica.