Estadística práctica para ciencia de datos con R y Python

Autor: Bruce, Bruce y otros

ISBN: 842673443X

Editorial: Marcombo, S.A.

Edición: 1

Páginas: 346

Formato: 24x18x2

Cant. tomos: 1

Año: 2022

Idioma: España

Origen: España

Disponibilidad.: No Disponible

Gs 396.000
Los métodos estadísticos son una parte fundamental de la ciencia de datos, pero pocos científicos de datos tienen una formación avanzada en estadística. Los cursos y libros sobre estadística básica rara vez tratan el tema desde la perspectiva de la ciencia de datos. La segunda edición de este libro incluye ejemplos detallados de Python, ofrece una orientación práctica sobre la aplicación de los métodos estadísticos a la ciencia de datos, te indica cómo evitar su uso incorrecto y te aconseja sobre lo que es y lo que no es importante.

Muchos recursos de la ciencia de datos incorporan métodos estadísticos, pero carecen de una perspectiva estadística más profunda. Si estás familiarizado con los lenguajes de programación R o Python y tienes algún conocimiento de estadística, este libro suple esas carencias de una forma práctica, accesible y clara.

Con este libro aprenderás:

Por qué el análisis exploratorio de datos es un paso preliminar clave en la ciencia de datos
Cómo el muestreo aleatorio puede reducir el sesgo y ofrecer un conjunto de datos de mayor calidad, incluso con Big Data
Cómo los principios del diseño experimental ofrecen respuestas definitivas a preguntas
Cómo utilizar la regresión para estimar resultados y detectar anomalías
Técnicas de clasificación esenciales para predecir a qué categorías pertenece un registro
Métodos estadísticos de aprendizaje automático que aprenden a partir de los datos
Métodos de aprendizaje no supervisados para extraer significado de datos sin etiquetar

Peter Bruce es el fundador del Institute for Statistics Education en Statistics.com.

Andrew Bruce es científico investigador jefe en Amazon y tiene más de 30 años de experiencia en estadística y ciencia de datos.

Peter Gedeck es científico de datos senior en Collaborative Drug Discovery, desarrolla algoritmos de aprendizaje automático para pronosticar propiedades de posibles futuros fármacos.
Prefacio . xi

1. Análisis exploratorio de datos.. 1
Elementos de datos estructurados 2
Datos rectangulares .. 4
Estimación de la localización 7
Estimación de la variabilidad . 13
Exploración de la distribución de datos 19
Exploración de datos binarios y categóricos . 27
Correlación . 30
Resumen .. 45

2. Distribuciones de datos y muestreo 47
Muestreo aleatorio y sesgo de la muestra . 48
Sesgo de selección .. 54
Distribución muestral del estadístico 57
Bootstrap . 61
Intervalos de confianza . 65
Distribución normal 69
Distribuciones de cola larga 72
Distribución t de Student. 74
Distribución binomial 77
Distribución chi cuadrado 79
Distribución F . 81
La distribución de Poisson y distribuciones relacionadas 81
Resumen .. 85

3. Experimentos estadísticos y pruebas significativas . 87
Prueba A/B.. 88
Pruebas de hipótesis . 93
Remuestreo 96
Significación estadística y valores p . 103
Pruebas t 10
Pruebas múltiples . 111
Grados de libertad 115
ANOVA 117
Prueba de chi cuadrado . 123
Algoritmo Multi-Arm Bandit 130
Potencia y tamaño de la muestra . 134
Resumen 138

4. Regresión y pronóstico .. 139
Regresión lineal simple .. 139
Regresión lineal múltiple .. 147
Pronóstico mediante la regresión 157
Variables de tipo factor en la regresión 160
Interpretación de la ecuación de regresión 166
Diagnósticos de regresión 172
Regresión polinomial y por spline 183
Resumen 189

5. Clasificación . 191
Bayes ingenuo 192
Análisis discriminante . 197
Regresión logística 203
Evaluación de modelos de clasificación 215
Estrategias para datos que no están equilibrados 224
Resumen 230

6. Aprendizaje automático estadístico . 231
K-vecinos más cercanos . 232
Modelos de árbol .. 243
Métodos de bagging y bosque aleatorio .. 253
Boosting . 263
Resumen 275

7. Aprendizaje no supervisado . 277
Análisis de componentes principales . 278
Agrupación K-means .. 287
Agrupación jerárquica 296
Agrupación basada en el modelo . 301
Variables categóricas y escalado.. 308
Resumen .. 316

Bibliografía 317
No hay enlaces disponible
Libros Relacionados