Introducción

La idea de este Rmarkdown es poder analizar la mayor base de datos de escalada que se encuentra en libre disposición en la actualidad (The Climbing Log Book Data creada por David Cohen). La misma puede descargarse del siguiente link: aqui. Los datos fueron obtenidos a partir de scrappear la página www.8a.nu y corresponden al 13 de septiembre de 2017.

Algunos comentarios a tener en cuenta: Los datos provienen de un sitio web donde los usuarios registran sus escaladas y las personas que se toman la molestia de registrar esta información se toman muy en serio su pasatiempo. Por lo tanto, los datos presentan un fuerte sesgo y tenderán a representar en exceso al escalador serio y fuerte. Esto implica que los grados más bajos no están bien representados en el análisis ya que los principiantes no suelen cargar sus ascensos y los escaladores más avanzados tienden a focalizarse en subir grados más altos.

Por último, los datos reflejan una mayor representación de regiones geográficas donde la plataforma 8a.nu es particularmente popular, principalmente en Europa, lo cual también debe tenerse en cuenta al interpretar los resultados.

El set de datos se puede descargar como una base de datos sqlite, pero me resultó más rápido exportar cada de una las 4 tablas que integra la base de datos como archivos .csv individuales (utilizando SQLServer) para luego importarlos a R y analizarlos.

Tablas:

  • Ascents: Cuenta con alrededor de 4 millones de escaladas registradas, diferenciando entre la modalidad boulder y escalada deportiva.

  • Grade: Una lista de cada uno de los diferentes grados de escalada.

  • Usuarios: Aproximadamente 65,000 usuarios.

  • Método: Describe el método utilizado para ascender en la escalada.

Estructura de las bases

Exploración de los datos

Data summary
Name user
Number of rows 62593
Number of columns 22
_______________________
Column type frequency:
character 15
numeric 7
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
first_name 0 1 5 5 0 1 0
last_name 0 1 4 4 0 1 0
city 0 1 0 30 1426 16454 0
country 0 1 0 4 98 215 0
competitions 11 1 0 40 57596 3356 0
occupation 0 1 0 127 50813 5339 0
sponsor1 1 1 0 129 57230 3846 0
sponsor2 1 1 0 80 59929 1884 0
sponsor3 1 1 0 249 61088 1129 0
best_area 1 1 0 231 47172 8912 0
worst_area 0 1 0 59 62372 213 0
guide_area 6 1 0 224 54787 6016 0
interests 0 1 0 250 54014 7374 0
birth 0 1 0 10 34737 10704 0
presentation 0 1 0 6207 56478 5951 4

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
id 0 1 33106.41 19373.41 1 16325 32721 49980 67025 ▇▇▇▇▇
sex 0 1 0.16 2.07 0 0 0 0 255 ▇▁▁▁▁
height 0 1 83.88 88.16 0 0 0 176 255 ▇▁▁▇▁
weight 0 1 33.12 35.08 0 0 0 68 100 ▇▁▂▅▁
started 0 1 1071.69 999.57 0 0 1992 2006 2090 ▇▁▁▁▇
deactivated 0 1 0.04 0.20 0 0 0 0 1 ▇▁▁▁▁
anonymous 0 1 0.00 0.00 0 0 0 0 0 ▁▁▇▁▁

Como primera aproximación a los datos se busca saber cuál es el máximo grado de escalada deportiva y de boulder alcanzado por los usuarios. Para ello, se debe estimar la edad, experiencia, y máximo grado escalado por usuario y modalidad (redpoint, onsight/flash).

Exploración visual de las variables cuantitativas de interés

A partir del gráfico anterior se observa que las distribuciones de las variables tienden a ser bastante normales, salvo en el caso del peso de las mujeres donde la distribución tiende a ser más asimétrica (asimetría positiva) que para los hombres. Lo que significa que la mayor parte de las mujeres reporta un peso menor a la media.

Estimación del grado máximo escalado por usuario

Para cada usuario se identificó el máximo grado alcanzado en modalidad redpoint y onsight/flash, tanto en escalada deportiva como en boulder. Junto con el grado, se extrajo el año en que fue registrado ese ascenso como representación del momento de mayor rendimiento declarado.

A partir de esa información, se estimó el tiempo requerido para alcanzar dicho grado calculando la diferencia entre:

  • El año del ascenso al máximo grado, y
  • El año en que la persona declaró haber comenzado a escalar.

Este indicador permite evaluar la velocidad de progresión individual hasta el mayor nivel registrado en la base de datos. Se excluyeron valores extremos o inconsistentes (por ejemplo, tiempos negativos o mayores a 30 años) para evitar distorsión en los resultados.

A partir de ambos gráficos se observa que la gran mayoría de las personas reportaron como su máximo grado de escalada en roca el 8a, mientras que en boulder V6.

Análisis de Escalada en roca

Al profundizar en el tiempo que han necesitado los escaladores para alcanzar un grado concreto (como el 7a), se observa que la gran mayoría lo ha alcanzado entre los 2 y 3 años, mientras que el promedio indica unos 5. Esto se debe a la gran variabilidad que existe en los datos relevados.

Este gráfico muestra la relación entre el grado máximo alcanzado en modalidad redpoint (ensayado) y el grado máximo en modalidad onsight/flash. La concentración de puntos a lo largo de la diagonal es esperable: quienes alcanzan un alto grado ensayado tienden a mostrar también un alto rendimiento a vista/flash.

Sin embargo, también se observa una notable dispersión alrededor de esa diagonal. Esta variabilidad indica que, para un mismo grado redpoint, existen diferencias marcadas en el grado alcanzado a vista, y viceversa. Los límites superior e inferior representan los valores máximos y mínimos observados para cada nivel redpoint.

Relación entre características antropométricas y grado escalado

A partir del gráfico anterior se observa que, a medida que aumenta el máximo grado de escalada alcanzado el BMI medio tiende a reducirse como también su variabilidad, aunque de forma leve. Esto se observa en las bandas sombreadas que reflejan el rango de ±1 desvío estándar, proporcionando una medida de dispersión. Cabe resaltar que, para los grados más elevados existen pocos registros, por tal las estimaciones están muy influenciadas por la fisiología de esas personas.

Las tendencias mencionadas pareciesen tener más efecto en el caso de los hombres que de las mujeres. Particularmente, llama la atención el pico que se observa en el grado de 8a+ reportado por las mujeres, podría tratarse de un posible outlier que esté afectando la media como los desvíos standards estimados.

Se observa que dos personas reportaron haber escalado 8a+ como máximo grado y tienen un peso de 88 kg y 100 kg, midiendo 1,50 mts y 1,74 mts respectivamente, lo que genera valores bastante elevados de BMI comparados con el resto de las mujeres que escalaron dicho grado.

En el caso de los hombres, se observa que aquellos con menor estatura (aproximadamente entre 1,30 m y 1,75 m) tienden a mostrar una progresión más acelerada durante los primeros años de experiencia en la escalada. No obstante, estas tendencias deben interpretarse con cautela, debido al elevado nivel de variabilidad en los datos y a la posible presencia de sesgos muestrales.

En el caso de las mujeres, se optó por no presentar este análisis debido al menor volumen de registros disponibles y al alto grado de ruido observado en los datos, lo que impide extraer conclusiones sólidas o generalizables.

El gráfico revela una tendencia ligeramente negativa entre la altura y el grado máximo de escalada alcanzado tanto en hombres como en mujeres: a medida que aumenta la estatura, el rendimiento promedio tiende a disminuir.

Si bien las diferencias no son extremas, se observa que los escaladores y escaladoras de menor estatura presentan, en promedio, mejores desempeños máximos en relación con sus contrapartes más altas. Esta relación podría explicarse parcialmente por ventajas biomecánicas como una menor masa corporal relativa.

Edad

Se observa que la gran mayoría de los escaladores comenzaron a escalar entre los 18 y 22 años aproximadamente, habiendo los hombres, en promedio, comenzado relativamente antes que las mujeres.

Dado que la progresión en el grado máximo alcanzado parece estar influida por múltiples factores, se procedió a ajustar modelos de regresión múltiple para estimar su impacto específico. En particular, se analizaron variables como la edad, la experiencia, la altura y el índice de masa corporal, tanto para hombres como para mujeres.

Modelado y patrones

Hombres

Resultados del modelo lineal
term estimate std.error statistic p.value
Intercepto 95.256 2.205 43.20 < 2e-16
Índice de Masa Corporal (BMI) -0.655 0.040 -16.24 < 2e-16
Altura (en mts.) -11.685 1.134 -10.31 < 2e-16
Experiencia (en años) 0.656 0.015 43.15 < 2e-16
Edad (en años) -0.401 0.014 -28.63 < 2e-16

A partir de los resultados obtenidos, es posible sostener que a mayor bmi y altura, en promedio, se obtiene un menor grado escalado. Para poder conocer que variable afecta más sobre el máximo grado escalado, debemos estandarizar las variables predictoras para llevarlas a una misma unidad de medida.

Resultados del modelo lineal estandarizado
term estimate std.error statistic p.value
Intercepto 55.462 0.083 670.72 < 2e-16
Índice de Masa Corporal (BMI) -1.400 0.086 -16.24 < 2e-16
Altura (en mts.) -0.858 0.083 -10.31 < 2e-16
Experiencia (en años) 4.781 0.111 43.15 < 2e-16
Edad (en años) -3.282 0.115 -28.63 < 2e-16
R² del modelo lineal estandarizado
r.squared adj.r.squared
0.1956195 0.1953084

Los resultados del modelo de regresión lineal múltiple con variables predictoras estandarizadas indican que:

La experiencia en escalada es el predictor con mayor efecto positivo sobre el grado máximo alcanzado (\(\hat{\beta}\)= 4.54), lo cual es coherente con la hipótesis de que la acumulación de práctica y conocimiento técnico contribuye significativamente al rendimiento.

La edad muestra un efecto negativo considerable (\(\hat{\beta}\) = -2.99), lo que sugiere que, independientemente de la experiencia acumulada, el paso del tiempo podría afectar negativamente el desempeño, posiblemente debido a factores fisiológicos o psicológicos asociados al envejecimiento.

El índice de masa corporal (BMI) (\(\hat{\beta}\) = -1.44) y la altura (\(\hat{\beta}\) = -0.83) también presentan asociaciones negativas con el grado máximo alcanzado, aunque de menor magnitud. Estos efectos podrían estar vinculados a consideraciones biomecánicas, como la relación entre masa corporal y fuerza relativa o el impacto del centro de gravedad y el alcance.

Todos los coeficientes resultaron estadísticamente significativos (p < 0.001), lo que valida la inclusión de estas variables en el modelo. El coeficiente de determinación ajustado fue de R² = 0.1885, indicando que el modelo explica aproximadamente el 18.9% de la variabilidad observada en el grado máximo escalado.

No obstante, este porcentaje relativamente bajo sugiere que existen otros factores determinantes del rendimiento que no han sido capturados en el modelo. Entre ellos, se destacan variables psicológicas (como la tolerancia al miedo, la motivación y la gestión del estrés), así como capacidades físicas específicas de la escalada (como la fuerza máxima de dedos, la resistencia muscular local, la movilidad y la técnica gestual). Incorporar estas dimensiones en futuros modelos podría mejorar sustancialmente la capacidad explicativa y la comprensión integral del rendimiento en escalada deportiva.

Supuestos

Normalidad

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos
## D = 0.047281, p-value < 0.00000000000000022

Homocedasticidad e independencia

Sesgo

Multicolinealidad

Inflación de la varianza

##        bmi     height experience        age 
##   1.086710   1.013675   1.795512   1.921378

Mujeres

Resultados del modelo lineal estandarizado
term estimate std.error statistic p.value
Intercepto 52.097 0.238 219.09 < 2e-16
Índice de Masa Corporal (BMI) -1.067 0.242 -4.41 1.0960e-05
Altura (en mts.) -0.588 0.243 -2.42 1.5611e-02
Experiencia (en años) 4.485 0.277 16.20 < 2e-16
Edad (en años) -2.648 0.280 -9.46 < 2e-16
R² del modelo lineal estandarizado
r.squared adj.r.squared
0.1835998 0.1811127

El modelo ajustado para mujeres muestra que la experiencia es el predictor con mayor efecto positivo sobre el grado máximo escalado (\(\hat{\beta}\) = 4.28, p < 0.001), confirmando que una mayor práctica acumulada se asocia con mejores desempeños. Por otro lado, tanto la edad (\(\hat{\beta}\) = -2.53, p < 0.001), el BMI (\(\hat{\beta}\) = -1.06, p < 0.001) y la altura (\(\hat{\beta}\) = -0.53, p = 0.03) ejercen efectos negativos, indicando que un mayor envejecimiento, mayor índice de masa corporal y mayor altura están relacionados con una disminución en el rendimiento, aunque la magnitud del efecto de la altura es más débil en comparación con las otras variables.

En comparación con el modelo para hombres, donde los coeficientes estandarizados para experiencia (\(\hat{\beta}\) ≈ 4.54) y edad (\(\hat{\beta}\) ≈ -2.99) también fueron los más relevantes, se observa una consistencia en la dirección y relevancia de estos predictores en ambos sexos. Sin embargo, el efecto negativo del BMI y la altura parece ser menos pronunciado en mujeres que en hombres, sugiriendo diferencias potenciales en cómo las características físicas influyen en el desempeño de escalada entre sexos.

El ajuste global del modelo en mujeres (R² ajustado = 0.176) es similar al observado en hombres (R² ajustado ≈ 0.188), indicando que las variables consideradas explican una proporción comparable de la variabilidad en el grado máximo alcanzado en ambos grupos.

Estos hallazgos respaldan la importancia de considerar diferencias sexuales en el análisis del rendimiento en escalada, especialmente en cómo factores fisiológicos pueden tener impactos diferenciados. Asimismo, sugieren que modelos separados para cada sexo son apropiados para capturar estas particularidades y mejorar la precisión interpretativa. Cabe destacar que otros factores no incluidos en el modelo —como fuerza específica, técnica y aspectos psicológicos— probablemente contribuyen también de forma importante al rendimiento y deberían considerarse en análisis futuros para mejorar el ajuste del modelo.

Supuestos

Normalidad

Homocedasticidad e independencia

Multicolinealidad

Inflación de la varianza

##        bmi     height experience        age 
##   1.086710   1.013675   1.795512   1.921378

Sesgo

Evaluación de los supuestos de ambos modelos (hombre y mujer)

La inspección visual de los gráficos diagnósticos sugiere que el modelo cumple razonablemente con los supuestos del modelo de regresión lineal múltiple:

  • Normalidad: el histograma y el boxplot de los residuos muestran una distribución aproximadamente simétrica, sin asimetrías marcadas ni presencia de valores extremos relevantes. El QQ-plot refuerza esta apreciación, con los residuos alineados en gran parte con la distribución normal teórica, salvo leves desvíos en las colas.

  • Independencia: no se observan patrones sistemáticos ni autocorrelación evidente en los residuos ordenados, lo que sugiere independencia entre observaciones.

  • Homocedasticidad: el gráfico de residuos versus valores ajustados muestra una dispersión homogénea, sin indicios claros de varianza creciente o decreciente.

  • Ausencia de multicolinealidad: se analizaron los factores de inflación de la varianza (VIF) para los predictores, y en todos los casos resultaron en valores bajos (típicamente < 5), lo que indica que no existe colinealidad significativa entre las variables independientes incluidas en el modelo.

  • Sesgo: aunque no es un supuesto formal del modelo, el gráfico de sesgo de los residuos permite evaluar si el modelo tiende a sobreestimar o subestimar sistemáticamente ciertos valores de la variable objetivo. En este caso, el sesgo se distribuye de manera equilibrada en torno a cero, lo cual sugiere que el modelo no presenta un sesgo estructural relevante y que los errores de predicción son simétricos en promedio.