La ingeniería de datos no es algo nuevo. Las ciencias de la computación han dedicado bastante esfuerzo al manejo y almacenamiento de datos en medios electrónicos, su movimiento entre sistemas y su procesamiento. Los lenguajes de consulta de bases de datos son problemas pioneros de las ciencias computaionales (CCC). El análisis va más del lado de la estadística que de las CCC. Por supuesto que hay límites que se pueden transgredir, pero estas dos categorías: ingeniería de datos vs análisis de datos, están bastante separadas, aunque tengan intersecciones. En los extremos estarán las interseciones, padadójicamente, aunque esto es sólo un juego de palabras.
Bajo este paradigma de separar la ingeniería del análisis se limitan las posibilidades de innovación. Sospecho que es una medida extrema que se ha tomado durante un proceso de frustración en el que se tienen datos desorganizados y se requiere un gran trabajo en limpieza y automatización para mover datos para siquiera tener oportunidad de analizarlos. Es por eso que en este país de tercer/cuarto/quinto/n+1 mundo hay más ofertas de trabajo acerca de creación de infraestructura básica que para análisis. La ciencia siempre ha sido un lujo y la infraestructura siempre ha sido prioritaria.
Por supuesto que también se puede utilizar la ciencia a la vez que la ingeniería de infraestructuras, y se hace en los casos en las fronteras del conocimiento y de las posibilidades de las tecnologías establecidas.
Por ejemplo: los modelos de deep learning de lenguaje pueden ajustarse a tareas específicas y a cuerpos de documentos específicos (proceso conocido como fine-tuning) teniendo como base un modelo entrenado en millones de documentos y habiendo utilizado una gran cantidad de poder computacional. La ingestión y procesamiento de documentos de texto para hacer este fine-tuning periódicamente no es un tarea sencilla que un data analyst o data scientist haga normalmente. Esto encaja mejor en el rol de un machine learning engineer. Sin embargo, está claro que sería necesario una integración con ingenieros de datos a cargo de todo el proceso de ingestión de datos de la organización.
Por otro lado, los ingenieros de datos cada vez utilizan más herramientas ya desarrolladas que les aleja del desarrollo de software. La automatización no sólo interna y local sino también la automatización en esas herramientas dejará las tareas de ingeniería de datos como simple soporte técnico para usuarios finales (analistas) y aunque haya una gran demanda por ahora (2020) pronto será engullida por la automatización. El departamento de ingeniería de datos podría convertirse pronto en un call centers en donde trabajadores sin conocimientos especializados manejan superficialmente consolas de administración de los sistemas ya automatizados. El trabajo humano para la ingeniería de datos irá migrando a casos extremos, en esos bordes entre categorías que antes se tenían separadas artificialmente. El data engineer y el machine learning engineer trabajarán juntos y ya lo hacen.