Clave
TC2004B Nombre de la materia
Análisis de ciencia de datos Escuela
Ingeniería y Ciencias Departamento
Computación Tipo de materia
Bloque Créditos
4 Nivel Académico (General)
Intermedio Técnica Didáctica
Intención
Es un curso de nivel intermedio en tecnologías computacionales con enfoque en ciencia de datos, mediante el diseño de un proyecto, el almacenamiento de datos, el preprocesamiento y la visualización de datos hasta llegar a la creación del modelo y su evaluación, todo con una perspectiva de conciencia ética y responsabilidad. Requiere conocimientos previos de estadística descriptiva e inferencia estadística básicos, conocimiento de lenguajes de programación de uso común en ciencia de datos a un nivel básico. Como resultado del aprendizaje el alumno desarrolla un proyecto en ciencia de datos utilizando métodos estadísticos y herramientas tecnológicas convenientes para crear un modelo que responda a las preguntas propuestas. Objetivo General
Al terminar la unidad de formación el alumno:- Construye bases de datos estructurados y analizables a partir de información en una organización.- Extraer información relevante de grandes bases de datos estructurados utilizando métodos estadísticos y herramientas tecnológicas convenientes.- Analiza el mundo como un conjunto de sistemas interconectados con conciencia de la necesidad de incluir una visión integrada en la comprensión y solución de problemas de su disciplina.- Soluciona problemas de diversos ámbitos de la vida, con conciencia ética, responsabilidad y justicia. Objetivo Específico de Aprendizaje
Temas
1. Introducción a la ciencia de datos.1.1 Relación entre ciencia de datos con ingeniería de datos e inteligencia de negocios.1.2 Analítica de datos.1.3 Analítica de datos descriptiva.1.4 Analítica de datos predictiva.1.5 Analítica de datos prescriptiva.1.6 Ciclo de vida de proyectos de análisis de datos.1.7 Responsabilidad e implicaciones éticas del manejo de datos. 2. Adquisición y preparación de datos.2.1 Selección de la variable o variables respuesta.2.2 Selección de variables (factores).2.3 Técnicas de muestreo.2.4 Eliminación de ruido y depuración de datos.2.5 Valores perdidos, nulos, Incorrectos y detección de discrepancias.2.6 Agrupación y clasificación de datos.2.7 Integración y transformación de datos.2.8 Identificación de entidades.2.9 Similitud de objetos.2.10 Agregación, generalización y normalización. 3. Almacenamiento y acceso de datos.3.1 Bases de datos relacionales (SQL).3.2 Introducción a Hadoop y ambientes NonSQL.3.3 APIs a fuentes de datos.3.4 Servicios de cómputo en la nube.3.5 Manejo de versiones y trabajo colaborativo. 4. Manejo y visualización de datos.4.1 Paquetes y lenguajes de uso común en ciencia de datos.4.2 Estructuras de control y ciclos.4.3 Vectores.4.4 Arreglos.4.5 Listas.4.6 Data frames.4.7 Operaciones sobre data frames. 5. Exploración de técnicas básicas a través de paquetes de uso común.5.1 Modelos de regresión.5.2 Minería de datos (simple).5.3 Clasificadores.5.4 Árboles de decisión.5.5 Exploración de datos y descubrimiento estadístico. Metodología de la Enseñanza
Tiempo estimado
Tema 1 7 horasTema 2 20 horasTema 3 20 horasTema 4 20 horasTema 5 8 horasEvaluación 5 horasTotal: 80 horas Política de Evaluación
Material de Apoyo
Perfil del Profesor
(270501)Maestría en Estadística ; (270101)Maestría en Matemáticas ; (270301)Maestría en Matemáticas Aplicadas ; (270303)Maestría en Matemáticas Computacionales ; (110701)Maestría en Ciencias Computacionales ; (307001)Maestría en Ciencia de Datos ; (270501)Doctorado en Estadística ; (270101)Doctorado en Matemáticas ; (270301)Doctorado en Matemáticas Aplicadas ; (270303)Doctorado en Matemáticas Computacionales ; (110701)Doctorado en Ciencias Computacionales ; (307001)Doctorado en Ciencia de Datos Experiencia Recomendada
Requisitos
Haber Cursado TC1030 y Haber Cursado MA1001B Equivalencias
Bibliografía
Atributos
Materia Modelo Tec21 Competencias a Evaluar
SEG0502B, SMA0104A, SMA0301A, SMA0302A, SMA0601A, SMA0602A