Pasar al contenido principal

Objetivo del Cargo: ​Transformar datos para su posterior análisis y aplicación de modelos de machine learning e inteligencia artificial

Funciones Específicas:

  • Ensamblar grandes y complejos datasets para satisfacer requerimientos funcionales y no funcionales
  • Colaborar estrechamente con data scientists en busca de insights que permitan responder a preguntas clave de negocios
  • Montar la infraestructura necesaria para la extracción, transformación y carga óptimas de datos de una amplia variedad de fuentes de datos
  • Liderar implementación de DataOps, construyendo y manteniendo pipelines de datos dentro de la Agencia
  • Realizar mejoras en pipelines de datos para que continúe escalando de manera correcta
  • Escribir y mantener un código de calidad, legible.
  • Implementar medidas de seguridad en todas las bases de datos en todas las regiones de la nube. Seguridad de datos en reposo y en tránsito
  • Implementar y administrar herramientas de BigData y DataOps

Perfil del cargo:

Requisitos de formación académica y experiencia

  • Título profesional en una de las disciplinas académicas del núcleo básico de conocimiento de: Ingeniería de sistemas, industrial, electrónica o afines
  • Experiencia en extracción, manipulación (limpieza, transformación y cruce) y carga de datos
  • 2+ años de experiencia con SQL, Hadoop y Spark
  • Experiencia con proyectos analíticos y de almacenamiento de datos a gran escala

Conocimientos básicos o esenciales:

  • Perfil orientado hacia la manipulación de datos,
  • Conocimiento de los sistemas de procesamiento de streaming (Storm, Kafka, etc)
  • Manejo avanzado de bases de datos estructuradas y no estructuradas
  • Conocimientos de modelamiento de datos y técnicas de análisis estadístico
  • Conocimientos de Google Cloud Platform (Cloud Sql, BigQuery, Dataflow, DataPrep, AppEngine)
  • Entendimiento de negocio (entender el significado e interpretabilidad de los datos)
  • Deseable: conocimientos de arquitectura de datos y en herramientas de trabajo colaborativo en repositorio de código (GIT)

Medidas de éxito:

  • Fuentes de datos utilizados para analítica sobre el datalake son consistentes y permiten generar insights para el negocio
  • Pipelines de DataOps operativos
  • Alto porcentaje del flujo de preparación de datos automatizado con poca intervención manual

Derechos de decisión:

  • Diseño de pipelines de DataOps, con sus herramientas asociadas
  • Medidas de seguridad se definen y negocian con áreas de infraestructura cloud y seguridad de la inf. de la Agencia
Ubicación: 
Bogotá D.C.
Años de experiencia: 
1 - 2 años
Correo para aplicar a la oferta: 
Habilildades TI requeridas: 
SQL
Hadoop
Spark
Google Cloud Platform
BigQuery
Dataflow
DataPrep
AppEngine
Cloud Sql
Nivel de estudios requerido: 
Profesional universitario