diegotomassi@gmail.com
)diegotomassi@gmail.com
)Carácter de la asignatura:
Periodo de dictado:
Número de semanas que dura el curso: 15
Carga horaria total: 90
La disponibilidad de datos en cantidades masivas es una característica frecuente en aplicaciones actuales de ciencias cuantitativas. Análisis de riesgo crediticio, predicción de tendencias de consumo, identificación de reguladores genéticos para síntesis de fármacos, detección de conductas sospechosas en sistemas de vigilancia y asistentes de recomendación de música, libros y películas son algunos ejemplos de problemas que requieren el análisis de grandes bases de datos. La minería de datos y el aprendizaje automático proveen un conjunto de métodos y algoritmos para ayudar a esa comprensión.
El curso tiene como objetivo introducir al estudiante a las principales herramientas de minería de datos y aprendizaje automático, destinadas a extraer estructuras e información subyacente en grandes volúmenes de datos y a construir modelos predictivos escalables. Se pretende que al finalizar y aprobar el curso, el alumno adquiera una formación integradora de los métodos abordados, comprendiendo sus fundamentos estadísticos, propiedades, ventajas y limitaciones, como así también algoritmos eficientes para su uso en la solución de problemas concretos.
Semana | Temas a desarrollar |
---|---|
1 | UNIDAD I: Introducción al aprendizaje automático y la minería de datos. Aprendizaje supervisado vs no supervisado. Regresión, clasificación y clustering. Criterios de optimalidad. Riesgo de Bayes. Riesgo empírico y riesgo estructural. |
2 | UNIDAD II: Aprendizaje supervisado: modelos lineales. Regresión lineal múltiple. Regresión logística. Análisis discriminante lineal. Validación cruzada y métodos de remuestreo para selección y validación de modelos. Curvas ROC. |
3 | UNIDAD II: Aprendizaje supervisado: modelos lineales. Regresión lineal múltiple. Regresión logística. Análisis discriminante lineal. Validación cruzada y métodos de remuestreo para selección y validación de modelos. Curvas ROC. |
4 | UNIDAD III: Aprendizaje supervisado: modelos lineales en alta dimensión. Selección por pasos vs regularización. Regresión ridge. Lasso y lasso por grupos. Reducción de dimensiones: regresión parcial y correlaciones canónicas. |
5 | UNIDAD III: Aprendizaje supervisado: modelos lineales en alta dimensión. Selección por pasos vs regularización. Regresión ridge. Lasso y lasso por grupos. Reducción de dimensiones: regresión parcial y correlaciones canónicas. |
6 | UNIDAD III: Aprendizaje supervisado: modelos lineales en alta dimensión. Selección por pasos vs regularización. Regresión ridge. Lasso y lasso por grupos. Reducción de dimensiones: regresión parcial y correlaciones canónicas. |
7 | UNIDAD IV: Aprendizaje supervisado: métodos basados en árboles. Particionado recursivo. Árboles de regresión y de clasificación. Bagging, boosting y random forests. |
8 | UNIDAD V: Aprendizaje supervisado: métodos basados en núcleos. Vecinos más cercanos. Criterio de margen máximo. Máquinas de vectores soporte para clasificación y regresión. |
9 | UNIDAD V: Aprendizaje supervisado: métodos basados en núcleos. Vecinos más cercanos. Criterio de margen máximo. Máquinas de vectores soporte para clasificación y regresión. |
10 | UNIDAD VI: Aprendizaje no supervisado: clustering. K-medias, Mean-shift, level sets. Clustering basado en modelos de mezclas y algoritmo EM. Clustering basado en grafos. Clustering jerárquico. Clustering de variables y biclustering. |
11 | UNIDAD VI: Aprendizaje no supervisado: clustering. K-medias, Mean-shift, level sets. Clustering basado en modelos de mezclas y algoritmo EM. Clustering basado en grafos. Clustering jerárquico. Clustering de variables y biclustering. |
12 | UNIDAD VII: Aprendizaje no supervisado: reducción de dimensiones y modelos de variables latentes. Análisis de componentes principales (PCA). Análisis de componentes independientes. Análisis de factores. Métodos no-lineales de reducción dimensional. |
13 | UNIDAD VII: Aprendizaje no supervisado: reducción de dimensiones y modelos de variables latentes. Análisis de componentes principales (PCA). Análisis de componentes independientes. Análisis de factores. Métodos no-lineales de reducción dimensional. |
14 | UNIDAD VIII: Aprendizaje no supervisado: explorando dependencias entre variables. Medidas generalizadas de correlación y dependencia estadística. Modelos gráficos probabilísticos. |
15 | UNIDAD VIII: Aprendizaje no supervisado: explorando dependencias entre variables. Medidas generalizadas de correlación y dependencia estadística. Modelos gráficos probabilísticos. |
Obtener por lo menos el 50% en cada una de las dos evaluaciones de regularidad previstas, con al menos 58% de promedio entre dichas evaluaciones y aprobar un trabajo práctico final integrador. Las evaluaciones de regularidad se tomarán durante el semestre, serán escritas y de una hora de duración e incluirán conocimientos prácticos de los temas desarrollados de acuerdo al cronograma.
Para promocionar la materia, los alumnos podrán realizar 2 evaluaciones parciales, las que incluirán la resolución de problemas que abarcarán todos los contenidos estudiados en la asignatura. Para acceder a la promoción es necesario que los alumnos mantengan su condición de regular. Aquel alumno que obtenga un promedio no menor a 80% en las evaluaciones parciales se considerará promocionado y estará eximido de rendir el examen final. No se propondrán instancias de recuperación a las evaluaciones parciales. La nota final resultará del promedio de los dos parciales y se utilizará la escala de calificaciones según resolución CD 611/09.
Tanto las evaluaciones de regularidad, como los exámenes parciales y los exámenes finales serán escritos, tendrán una duración de dos horas e incluirán el uso de software específico usado para el dictado de la materia.
bbongio@santafe-conicet.gov.ar
.