Buscador
Diplomatura de vinculación en introducción a la Ciencia de Datos (IN40009/23)-Fecha de Realización
Fecha de Realización:

Del 20/10/2023 al 22/12/2023

Diplomatura de vinculación en introducción a la Ciencia de Datos (IN40009/23)-Cierre de Inscripción
Cierre de Inscripción:

15/10/2023

Diplomatura de vinculación en introducción a la Ciencia de Datos (IN40009/23)-Tipo de Carrera
Tipo de Carrera:

Curso de Actualización

Descripción

El drástico aumento en capacidad de cómputo, almacenamiento, conectividad y disponibilidad de datos cambió por completo a disciplinas como economía, salud, ingeniería, informática, por sólo nombrar algunas. Los desafíos se renovaron y los conocimientos requeridos cambiaron. La transformación es continua. Este escenario impone la necesidad de ofrecer propuestas de formación complementaria que contribuyan con conocimientos en estadística, informática y ciencia de datos que permita a los trabajadores y las trabajadoras del estado aportar al sector público, así como interactuar con grupos de trabajo interdisciplinarios.

En la actualidad, cuando se pretende realizar un análisis de datos de un sistema completo se dedican entre el 80 y 90% del tiempo total del proyecto a la preparación de los datos, automatización de los procesos, salida productiva, monitoreo de la solución y evolución de la misma para lograr una implementación exitosa. Si bien el conocimiento de Programación, Minería de Datos y Estadística es crucial, la mayoría de las habilidades involucradas en este proceso son específicas y se asemejan mucho a cómo se administra un proceso, aunque con un sesgo específico al mundo de los datos.

Dado que el manejo de datos afecta de manera transversal a la Administración pública, es que se propone este Proyecto de capacitación denominado Diplomatura en Ciencia de Datos. Con el fin de aportar conocimientos teórico-prácticos para que los y las agentes estatales que se desempeñen en áreas o proyectos relacionados a la gestión de datos cuenten con las capacidades suficientes para implementar herramientas que ayuden a la toma de decisiones.

Organización de la propuesta:

Como se ha mencionado el objetivo de la Diplomatura en Ciencia de Datos es brindar un espacio de formación para el análisis, extracción y gestión de grandes volúmenes de datos. El diseño curricular de la Diplomatura comprende 6 cursos agrupados en 2 áreas: la primera denominada Fundamentos está compuesta por materias introductorias y el Área Núcleo incluye asignaturas enfocadas a conceptos específicos a Ciencia de Datos.

Cada uno de los cursos tienen una duración de un mes distribuidos en 20 hs. e incluyen clases sincrónicas junto a actividades asincrónicas. Cada curso se dividirá en 12 horas de clases sincrónicas (3 horas de encuentros semanales por plataforma de videoconferencias) y 8 horas de actividades asincrónicas (2 horas semanales dedicadas a resolución de ejercicios y desarrollo de soluciones por parte del estudiante). Se cursan 2 cursos por mes en simultáneo, por lo que cada semana hay 6 hs. sincrónicas (dos por cada curso) y 4 hs. asincrónicas (2 por cada curso), total: 10 hs. total por semana (5 por cada curso).

Para el dictado de cada curso se prevé la incorporación de un/a docente con formación de grado y posgrado en el tema o que posea una experiencia profesional con experticia en el campo temático abordado dentro del ámbito público.

Los cursos constan de espacios de exposición teórica a cargo de docentes y de grupos de alumnos/as, actividades grupales de resolución de problemas, espacios de reflexión e investigación, trabajos prácticos, seminarios y trabajos finales por asignatura. Las clases virtuales, son presentaciones por parte del docente de un conjunto de temas seleccionados, generalmente mediados por plataformas de teleconferencia que permiten escuchar al docente acompañado de una presentación. El desarrollo de la clase cuenta con orientaciones para la lectura de los materiales y la realización de actividades utilizando distintas herramientas que ofrece el campus virtual de la Universidad.

 

ÁreaFundamentos
Curso Carga horaria (horas reloj)
Análisis Estadístico 20 hs
Programación 20 hs
Base de Datos 20 hs
Área Núcleo
Curso Carga horaria (horas reloj)
Captura de la Información 20 hs
Minería de Datos 20 hs
Big Data 20 hs
  • - Análisis Estadístico

Carga horaria total: 20 horas Objetivos

Proveer herramientas avanzadas de estadística a los efectos de predecir situaciones referentes a los problemas provenientes de la Ingeniería, la Física y otras ciencias relacionadas.

Brindar herramientas para el análisis de datos experimentales a través de la utilización de nuevas tecnologías y software libre. Contenidos:

  1. Repaso de distribuciones de probabilidades. Estadística descriptiva. Introducción a la programación en R. Importación de datos y scripting (archivo de instrucciones) para procesamiento intensivo de datos. Análisis de estadística descriptiva en R.
  2. Repaso de técnicas de Contrastes de hipótesis paramétricas. Test de hipótesis para la media, la varianza y cociente de varianzas. Test de hipótesis para proporciones.
  3. Métodos de regresión lineal. Regresión lineal simple. Test de hipótesis en regresión lineal simple. Intervalos de confianza para la respuesta media y predicciones futuras. Análisis de residuos y coeficiente de determinación. El modelo de regresión múltiple. Estimación de los coeficientes de regresión múltiple. Inferencias en la regresión múltiple. Inferencias basadas en el coeficiente de determinación. Predicciones basadas en la regresión múltiple.
  4. Análisis de varianza. Diseño de experimentos en ingeniería. Comparación de Medias Múltiples. Análisis de varianza. ANOVA para Poblaciones Dependientes.
  5. Estadística no paramétrica. Test del signo. Test de rangos signados de Wilcoxon. Métodos no paramétricos en ANOVA. Kruskal-Wallis.
  • -Programación

Carga horaria total: 20 horas Objetivos

Ofrecer herramientas para la programación Contenidos:

  1. Introducción y conceptos básicos.

Planteo de problemas y solución por computadora. Concepto de algoritmo. Lenguaje de programación. Paradigmas. Interpretación de pseudocódigo. Estructura básica de programa. Sintaxis. Encoding. Documentación. Ejecución de programas. Depuración de código. Complejidad algorítmica.

  1. Estructuras de control y tipos de datos

Indentación. Variables. Asignación. Concepto de memoria. Tipos de datos simples. Conversiones de tipos. Operadores. Manejo de Strings. Expresiones regulares. Estructuras condicionales. Estructuras iterativas.

  1. Funciones y estructuras de datos

Módulos. Funciones. Parámetros. Arreglos. Matrices. Operaciones vectoriales y matriciales. Otras estructuras: listas, árboles y grafos.

  • Base de Datos

Carga horaria total: 20 horas Objetivos

Ofrecer herramientas para el almacenamiento, gestión, organización y seguridad de la información.

Integrar las distintas tecnologías de bases de datos con lenguajes de programación.

Poder analizar y definir sobre las distintas tecnologías de base de datos como las ventajas y desventajas de cada implementación.

Al finalizar el curso el/la alumno/a deberá poder analizar diferentes escenarios y poder aplicar soluciones eficientes de base de datos para las mismas.

Contenidos:

  1. Base de datos relacionales: características, casos de uso, ventajas y desventajas. Mysql, Oracle, PostgreSQL, SQL Server. Instalación y uso. SQL. Operaciones CRUD. Diseño conceptual, diseño lógico y diseño físico.
  2. Base de datos no relacionales (NoSQL): Introducción y fundamentos de noSQL. características, casos de uso, ventajas y desventajas. MongoDB. Cassandra, Redis y Elastic Search.
  3. Integración de las bases de datos con programación. Python con bases de datos: SQLAlchemy. PyMongo. Cassandra driver. Redis py
  • Captura de la Información

Carga horaria total: 20 horas Objetivos

La captura y el almacenamiento de la información son frecuentemente las fases iniciales en un proceso de análisis y representación de datos. En este curso se propone analizar distintos mecanismos capaces de realizar estas tareas de manera eficiente. El curso tiene dos partes: la primera relacionada con la revisión de distintos mecanismos de captura de la información y la segunda donde se cubren los aspectos relacionados con almacenamiento de información a través de BBDD NoSQL.

Contenidos:

− Big Data. Características y desafíos del Big Data. Fuentes de Datos.

− Digitalización de Datos. Tipos de Datos y sus Características: Ópticos: Imágenes, videos yotros. Sonoros: voz, música. Provenientes de Otros Sensores.

− Dispositivos de Captura: Manuales y OCR. Escáneres. Cámaras. Lectores de Marcas: OMR, MICR. Micrófonos. Sensores Varios: Radares, Nucleares, etc.

− Lenguaje de marcado. Metadatos.

− Captura de datos. Extracción de datos de las redes sociales. Obtención de datos históricos y datos en tiempo real. Utilización de APIs y herramientas para capturar datos.

− Captura de información de la web. Web scraping y web crawling. Tipos de web crawlers. Uso de expresiones regulares. Librerías y frameworks específicos.

  • Minería de Datos

Carga horaria total: 20 horas Objetivos

Se introducirán los conceptos básicos de la Minería de Datos.

− Se analizarán distintas técnicas que permitan construir modelos predictivos y descriptivos sobre datos de repositorios.

− Se resolverán problemas concretos haciendo hincapié en el análisis de los modelos obtenidos. Contenidos:

Introducción. Obtención de conocimiento a partir de los datos. El concepto de patrón. El proceso KDD. Fases del proceso de extracción del conocimiento. La Minería de Datos como fase del proceso KDD. Relación con otras disciplinas.

− Recuperación de información vs recuperación de datos. Proceso de recuperación de información.

− Preparación de Datos. Metadatos. Análisis de la información de entrada. Construcción y análisis de representaciones gráficas. Limpieza y transformación. Transformación y creación de atributos. Discretización y Numerización, Normalización de rango, escalado y centrado. Exploración mediante visualización y selección de datos.

− Técnicas de Minería de Datos. Extracción de Patrones. Introducción. Tareas y Métodos. Tareas predictivas y descriptivas. Aprendizaje supervisado y aprendizaje no supervisado. La Minería de Datos y el aprendizaje inductivo. Comparación de las técnicas de Minería de Datos.

− Arboles de decisión. Métricas de selección de atributos. Entropía. Ganancia de Información. Tasa de Ganancia. Indice Gini. Poda y Sobreajuste. Algoritmos Id3, C4.5 y Random Forest. Construcción de árboles para grandes volúmenes de datos.

− Reglas de clasificación. Partición vs cobertura. Métodos ZeroR, OneR, PRISM y PART. Métricas de una regla: soporte, cobertura, confianza, interés y convicción.

  • - Big Data

Carga horaria total: 20 horas Objetivos

Aplicar los conceptos fundamentales del procesamiento paralelo al caso de grandes volúmenes de datos (Big Data). Presentar sistemas de almacenamiento de Big Data y herramientas de procesamiento paralelo sobre los mismos. Analizar el empleo de técnicas y herramientas de HPC (High Performance Computing) en tratamiento de Big Data, desde el punto de vista rendimiento y eficiencia. Contenidos:

Unidad 1: Conceptos básicos de paralelismo Procesamiento paralelo. Arquitecturas paralelas. Servidores, Clusters y Cloud. Modelos de programación. Métricas. Herramientas.

Unidad 2: Introducción a Big data. Relación con Paralelismo Fundamentos. Objetivos. Modelos de datos y modelos de procesamiento. Paradigma Map-Reduce. Apache Hadoop. Por qué paralelismo sobre Big Data?

Unidad 3: Sistemas de almacenamiento para Big Data Sistemas de archivos distribuidos. Clasificación. Apache HDFS. Bases de datos relacionales. Bases de datos NoSQL. Hive, Shark, MongoDB, Cassandra.

Unidad 4: Procesamiento paralelo en Big Data en la Nube

Cursada Sincrónica: lunes y viernes de 19 a 22 hs

Más información:
Correo electrónico: : centrodeoficios@unaj.edu.ar

 

Perfil de destinatarios FoPeCap:
Agentes pertenecientes el Convenio Colectivo de Trabajo General para la Administración Pública Nacional homologado por Decreto Nº214/2006, que tengan a su cargo actividades que impliquen manejo y gestión de datos o que deseen incrementar sus habilidades en estadística, informática y Ciencia de Datos para analizar, extraer y gestionar información.

Postulación en el INAP:
Para completar su preinscripción al Programa Formación 2023 INAP/FoPeCap debe enviar la siguiente documentación únicamente por correo electrónico a formar2020@jefatura.gob.ar

  • Nota Aval dirigida al Director Institucional del INAP, Mag. Leandro M. Bottinelli (*)  firmada por la autoridad inmediata superior con rango no inferior a Director/a Nacional o equivalente, que describa el resultado que se espera del cursante en términos de competencias para mejorar el desempeño de su organismo y aprobación de los permisos necesarios para que el postulante pueda cursar el programa sin inconvenientes. La nota debe ser remitida adjunta (en archivo PDF o imagen) con la siguiente denominación Apellido NOTA. Ej.: PerezNOTA (descargar Nota Modelo)
  • Acta Compromiso firmada por el postulante y por la autoridad inmediata superior con rango no inferior a Director/a Nacional o equivalente, adjuntando documento (en archivo PDF o imagen) con la siguiente denominación: Apellido ACTA. Ej.: PerezACTA (descargar Acta Compromiso)

(*) La misma puede ser firmada holográficamente o digitalmente.