La idea de este Rmarkdown es poder analizar la mayor base de datos de escalada que se encuentra en libre disposición en la actualidad (The Climbing Log Book Data creada por David Cohen). La misma puede descargarse del siguiente link: aqui. Los datos fueron obtenidos a partir de scrappear la página www.8a.nu y corresponden al 13 de septiembre de 2017.
Algunos comentarios a tener en cuenta: Los datos provienen de un sitio web donde los usuarios registran sus escaladas y las personas que se toman la molestia de registrar esta información se toman muy en serio su pasatiempo. Por lo tanto, los datos presentan un fuerte sesgo y tenderán a representar en exceso al escalador serio y fuerte. Esto implica que los grados más bajos no están bien representados en el análisis ya que los principiantes no suelen cargar sus ascensos y los escaladores más avanzados tienden a focalizarse en subir grados más altos.
Por último, los datos reflejan una mayor representación de regiones geográficas donde la plataforma 8a.nu es particularmente popular, principalmente en Europa, lo cual también debe tenerse en cuenta al interpretar los resultados.
El set de datos se puede descargar como una base de datos sqlite, pero me resultó más rápido exportar cada de una las 4 tablas que integra la base de datos como archivos .csv individuales (utilizando SQLServer) para luego importarlos a R y analizarlos.
Tablas:
Ascents: Cuenta con alrededor de 4 millones de escaladas registradas, diferenciando entre la modalidad boulder y escalada deportiva.
Grade: Una lista de cada uno de los diferentes grados de escalada.
Usuarios: Aproximadamente 65,000 usuarios.
Método: Describe el método utilizado para ascender en la escalada.
Estructura de las bases
Name | user |
Number of rows | 62593 |
Number of columns | 22 |
_______________________ | |
Column type frequency: | |
character | 15 |
numeric | 7 |
________________________ | |
Group variables | None |
Variable type: character
skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
---|---|---|---|---|---|---|---|
first_name | 0 | 1 | 5 | 5 | 0 | 1 | 0 |
last_name | 0 | 1 | 4 | 4 | 0 | 1 | 0 |
city | 0 | 1 | 0 | 30 | 1426 | 16454 | 0 |
country | 0 | 1 | 0 | 4 | 98 | 215 | 0 |
competitions | 11 | 1 | 0 | 40 | 57596 | 3356 | 0 |
occupation | 0 | 1 | 0 | 127 | 50813 | 5339 | 0 |
sponsor1 | 1 | 1 | 0 | 129 | 57230 | 3846 | 0 |
sponsor2 | 1 | 1 | 0 | 80 | 59929 | 1884 | 0 |
sponsor3 | 1 | 1 | 0 | 249 | 61088 | 1129 | 0 |
best_area | 1 | 1 | 0 | 231 | 47172 | 8912 | 0 |
worst_area | 0 | 1 | 0 | 59 | 62372 | 213 | 0 |
guide_area | 6 | 1 | 0 | 224 | 54787 | 6016 | 0 |
interests | 0 | 1 | 0 | 250 | 54014 | 7374 | 0 |
birth | 0 | 1 | 0 | 10 | 34737 | 10704 | 0 |
presentation | 0 | 1 | 0 | 6207 | 56478 | 5951 | 4 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
id | 0 | 1 | 33106.41 | 19373.41 | 1 | 16325 | 32721 | 49980 | 67025 | ▇▇▇▇▇ |
sex | 0 | 1 | 0.16 | 2.07 | 0 | 0 | 0 | 0 | 255 | ▇▁▁▁▁ |
height | 0 | 1 | 83.88 | 88.16 | 0 | 0 | 0 | 176 | 255 | ▇▁▁▇▁ |
weight | 0 | 1 | 33.12 | 35.08 | 0 | 0 | 0 | 68 | 100 | ▇▁▂▅▁ |
started | 0 | 1 | 1071.69 | 999.57 | 0 | 0 | 1992 | 2006 | 2090 | ▇▁▁▁▇ |
deactivated | 0 | 1 | 0.04 | 0.20 | 0 | 0 | 0 | 0 | 1 | ▇▁▁▁▁ |
anonymous | 0 | 1 | 0.00 | 0.00 | 0 | 0 | 0 | 0 | 0 | ▁▁▇▁▁ |
Como primera aproximación a los datos se busca saber cuál es el máximo grado de escalada deportiva y de boulder alcanzado por los usuarios. Para ello, se debe estimar la edad, experiencia, y máximo grado escalado por usuario y modalidad (redpoint, onsight/flash).
A partir del gráfico anterior se observa que las distribuciones de las variables tienden a ser bastante normales, salvo en el caso del peso de las mujeres donde la distribución tiende a ser más asimétrica (asimetría positiva) que para los hombres. Lo que significa que la mayor parte de las mujeres reporta un peso menor a la media.
Para cada usuario se identificó el máximo grado alcanzado en modalidad redpoint y onsight/flash, tanto en escalada deportiva como en boulder. Junto con el grado, se extrajo el año en que fue registrado ese ascenso como representación del momento de mayor rendimiento declarado.
A partir de esa información, se estimó el tiempo requerido para alcanzar dicho grado calculando la diferencia entre:
Este indicador permite evaluar la velocidad de progresión individual hasta el mayor nivel registrado en la base de datos. Se excluyeron valores extremos o inconsistentes (por ejemplo, tiempos negativos o mayores a 30 años) para evitar distorsión en los resultados.
A partir de ambos gráficos se observa que la gran mayoría de las personas reportaron como su máximo grado de escalada en roca el 8a, mientras que en boulder V6.
Al profundizar en el tiempo que han necesitado los escaladores para alcanzar un grado concreto (como el 7a), se observa que la gran mayoría lo ha alcanzado entre los 2 y 3 años, mientras que el promedio indica unos 5. Esto se debe a la gran variabilidad que existe en los datos relevados.
Este gráfico muestra la relación entre el grado máximo alcanzado en modalidad redpoint (ensayado) y el grado máximo en modalidad onsight/flash. La concentración de puntos a lo largo de la diagonal es esperable: quienes alcanzan un alto grado ensayado tienden a mostrar también un alto rendimiento a vista/flash.
Sin embargo, también se observa una notable dispersión alrededor de esa diagonal. Esta variabilidad indica que, para un mismo grado redpoint, existen diferencias marcadas en el grado alcanzado a vista, y viceversa. Los límites superior e inferior representan los valores máximos y mínimos observados para cada nivel redpoint.
A partir del gráfico anterior se observa que, a medida que aumenta el máximo grado de escalada alcanzado el BMI medio tiende a reducirse como también su variabilidad, aunque de forma leve. Esto se observa en las bandas sombreadas que reflejan el rango de ±1 desvío estándar, proporcionando una medida de dispersión. Cabe resaltar que, para los grados más elevados existen pocos registros, por tal las estimaciones están muy influenciadas por la fisiología de esas personas.
Las tendencias mencionadas pareciesen tener más efecto en el caso de los hombres que de las mujeres. Particularmente, llama la atención el pico que se observa en el grado de 8a+ reportado por las mujeres, podría tratarse de un posible outlier que esté afectando la media como los desvíos standards estimados.
Se observa que dos personas reportaron haber escalado 8a+ como máximo grado y tienen un peso de 88 kg y 100 kg, midiendo 1,50 mts y 1,74 mts respectivamente, lo que genera valores bastante elevados de BMI comparados con el resto de las mujeres que escalaron dicho grado.
En el caso de los hombres, se observa que aquellos con menor estatura (aproximadamente entre 1,30 m y 1,75 m) tienden a mostrar una progresión más acelerada durante los primeros años de experiencia en la escalada. No obstante, estas tendencias deben interpretarse con cautela, debido al elevado nivel de variabilidad en los datos y a la posible presencia de sesgos muestrales.
En el caso de las mujeres, se optó por no presentar este análisis debido al menor volumen de registros disponibles y al alto grado de ruido observado en los datos, lo que impide extraer conclusiones sólidas o generalizables.
El gráfico revela una tendencia ligeramente negativa entre la altura y el grado máximo de escalada alcanzado tanto en hombres como en mujeres: a medida que aumenta la estatura, el rendimiento promedio tiende a disminuir.
Si bien las diferencias no son extremas, se observa que los escaladores y escaladoras de menor estatura presentan, en promedio, mejores desempeños máximos en relación con sus contrapartes más altas. Esta relación podría explicarse parcialmente por ventajas biomecánicas como una menor masa corporal relativa.
Se observa que la gran mayoría de los escaladores comenzaron a escalar entre los 18 y 22 años aproximadamente, habiendo los hombres, en promedio, comenzado relativamente antes que las mujeres.
Dado que la progresión en el grado máximo alcanzado parece estar influida por múltiples factores, se procedió a ajustar modelos de regresión múltiple para estimar su impacto específico. En particular, se analizaron variables como la edad, la experiencia, la altura y el índice de masa corporal, tanto para hombres como para mujeres.
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
Intercepto | 95.256 | 2.205 | 43.20 | < 2e-16 |
Índice de Masa Corporal (BMI) | -0.655 | 0.040 | -16.24 | < 2e-16 |
Altura (en mts.) | -11.685 | 1.134 | -10.31 | < 2e-16 |
Experiencia (en años) | 0.656 | 0.015 | 43.15 | < 2e-16 |
Edad (en años) | -0.401 | 0.014 | -28.63 | < 2e-16 |
A partir de los resultados obtenidos, es posible sostener que a mayor bmi y altura, en promedio, se obtiene un menor grado escalado. Para poder conocer que variable afecta más sobre el máximo grado escalado, debemos estandarizar las variables predictoras para llevarlas a una misma unidad de medida.
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
Intercepto | 55.462 | 0.083 | 670.72 | < 2e-16 |
Índice de Masa Corporal (BMI) | -1.400 | 0.086 | -16.24 | < 2e-16 |
Altura (en mts.) | -0.858 | 0.083 | -10.31 | < 2e-16 |
Experiencia (en años) | 4.781 | 0.111 | 43.15 | < 2e-16 |
Edad (en años) | -3.282 | 0.115 | -28.63 | < 2e-16 |
r.squared | adj.r.squared |
---|---|
0.1956195 | 0.1953084 |
Los resultados del modelo de regresión lineal múltiple con variables predictoras estandarizadas indican que:
La experiencia en escalada es el predictor con mayor efecto positivo sobre el grado máximo alcanzado (\(\hat{\beta}\)= 4.54), lo cual es coherente con la hipótesis de que la acumulación de práctica y conocimiento técnico contribuye significativamente al rendimiento.
La edad muestra un efecto negativo considerable (\(\hat{\beta}\) = -2.99), lo que sugiere que, independientemente de la experiencia acumulada, el paso del tiempo podría afectar negativamente el desempeño, posiblemente debido a factores fisiológicos o psicológicos asociados al envejecimiento.
El índice de masa corporal (BMI) (\(\hat{\beta}\) = -1.44) y la altura (\(\hat{\beta}\) = -0.83) también presentan asociaciones negativas con el grado máximo alcanzado, aunque de menor magnitud. Estos efectos podrían estar vinculados a consideraciones biomecánicas, como la relación entre masa corporal y fuerza relativa o el impacto del centro de gravedad y el alcance.
Todos los coeficientes resultaron estadísticamente significativos (p < 0.001), lo que valida la inclusión de estas variables en el modelo. El coeficiente de determinación ajustado fue de R² = 0.1885, indicando que el modelo explica aproximadamente el 18.9% de la variabilidad observada en el grado máximo escalado.
No obstante, este porcentaje relativamente bajo sugiere que existen otros factores determinantes del rendimiento que no han sido capturados en el modelo. Entre ellos, se destacan variables psicológicas (como la tolerancia al miedo, la motivación y la gestión del estrés), así como capacidades físicas específicas de la escalada (como la fuerza máxima de dedos, la resistencia muscular local, la movilidad y la técnica gestual). Incorporar estas dimensiones en futuros modelos podría mejorar sustancialmente la capacidad explicativa y la comprensión integral del rendimiento en escalada deportiva.
Supuestos
Normalidad
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: residuos
## D = 0.047281, p-value < 0.00000000000000022
Homocedasticidad e independencia
Sesgo
Multicolinealidad
Inflación de la varianza
## bmi height experience age
## 1.086710 1.013675 1.795512 1.921378
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
Intercepto | 52.097 | 0.238 | 219.09 | < 2e-16 |
Índice de Masa Corporal (BMI) | -1.067 | 0.242 | -4.41 | 1.0960e-05 |
Altura (en mts.) | -0.588 | 0.243 | -2.42 | 1.5611e-02 |
Experiencia (en años) | 4.485 | 0.277 | 16.20 | < 2e-16 |
Edad (en años) | -2.648 | 0.280 | -9.46 | < 2e-16 |
r.squared | adj.r.squared |
---|---|
0.1835998 | 0.1811127 |
El modelo ajustado para mujeres muestra que la experiencia es el predictor con mayor efecto positivo sobre el grado máximo escalado (\(\hat{\beta}\) = 4.28, p < 0.001), confirmando que una mayor práctica acumulada se asocia con mejores desempeños. Por otro lado, tanto la edad (\(\hat{\beta}\) = -2.53, p < 0.001), el BMI (\(\hat{\beta}\) = -1.06, p < 0.001) y la altura (\(\hat{\beta}\) = -0.53, p = 0.03) ejercen efectos negativos, indicando que un mayor envejecimiento, mayor índice de masa corporal y mayor altura están relacionados con una disminución en el rendimiento, aunque la magnitud del efecto de la altura es más débil en comparación con las otras variables.
En comparación con el modelo para hombres, donde los coeficientes estandarizados para experiencia (\(\hat{\beta}\) ≈ 4.54) y edad (\(\hat{\beta}\) ≈ -2.99) también fueron los más relevantes, se observa una consistencia en la dirección y relevancia de estos predictores en ambos sexos. Sin embargo, el efecto negativo del BMI y la altura parece ser menos pronunciado en mujeres que en hombres, sugiriendo diferencias potenciales en cómo las características físicas influyen en el desempeño de escalada entre sexos.
El ajuste global del modelo en mujeres (R² ajustado = 0.176) es similar al observado en hombres (R² ajustado ≈ 0.188), indicando que las variables consideradas explican una proporción comparable de la variabilidad en el grado máximo alcanzado en ambos grupos.
Estos hallazgos respaldan la importancia de considerar diferencias sexuales en el análisis del rendimiento en escalada, especialmente en cómo factores fisiológicos pueden tener impactos diferenciados. Asimismo, sugieren que modelos separados para cada sexo son apropiados para capturar estas particularidades y mejorar la precisión interpretativa. Cabe destacar que otros factores no incluidos en el modelo —como fuerza específica, técnica y aspectos psicológicos— probablemente contribuyen también de forma importante al rendimiento y deberían considerarse en análisis futuros para mejorar el ajuste del modelo.
Supuestos
Normalidad
Homocedasticidad e independencia
Multicolinealidad
Inflación de la varianza
## bmi height experience age
## 1.086710 1.013675 1.795512 1.921378
Sesgo
Evaluación de los supuestos de ambos modelos (hombre y mujer)
La inspección visual de los gráficos diagnósticos sugiere que el modelo cumple razonablemente con los supuestos del modelo de regresión lineal múltiple:
Normalidad: el histograma y el boxplot de los residuos muestran una distribución aproximadamente simétrica, sin asimetrías marcadas ni presencia de valores extremos relevantes. El QQ-plot refuerza esta apreciación, con los residuos alineados en gran parte con la distribución normal teórica, salvo leves desvíos en las colas.
Independencia: no se observan patrones sistemáticos ni autocorrelación evidente en los residuos ordenados, lo que sugiere independencia entre observaciones.
Homocedasticidad: el gráfico de residuos versus valores ajustados muestra una dispersión homogénea, sin indicios claros de varianza creciente o decreciente.
Ausencia de multicolinealidad: se analizaron los factores de inflación de la varianza (VIF) para los predictores, y en todos los casos resultaron en valores bajos (típicamente < 5), lo que indica que no existe colinealidad significativa entre las variables independientes incluidas en el modelo.
Sesgo: aunque no es un supuesto formal del modelo, el gráfico de sesgo de los residuos permite evaluar si el modelo tiende a sobreestimar o subestimar sistemáticamente ciertos valores de la variable objetivo. En este caso, el sesgo se distribuye de manera equilibrada en torno a cero, lo cual sugiere que el modelo no presenta un sesgo estructural relevante y que los errores de predicción son simétricos en promedio.