Los Cuatro Pilares de la Ingeniería de Datos: Especialización para Equipos de Datos Modernos
%2017.56.17.png)
Nuestros Cuatro Pilares de la Ingeniería de Datos
La especialización es un proceso natural que se produce a medida que las industrias progresan y maduran. La Ingeniería de Software se desarrolló como un campo en la década de 1960, pero la Ingeniería de Datos como disciplina distinta no apareció hasta el siglo XXI, a pesar de que SQL y las bases de datos relacionales existen desde la década de 1980.
Ahora, los equipos de datos modernos y bien financiados a menudo emplean combinaciones únicas de ingenieros de datos, ingenieros de análisis, ingenieros de BI, analistas de datos, analistas de negocios, analistas cuantitativos, científicos de datos, ingenieros de ML, ingenieros de AI, arquitectos de datos, arquitectos de soluciones, gerentes de análisis, gerentes de productos de datos, y así sucesivamente. Cada uno de estos roles requiere diferentes cantidades de especialización, que a menudo depende del contexto de su equipo u organización o industria. Los matices de estos roles pueden ser confusos para los equipos de datos menos maduros, especialmente en los mercados de talentos que no han desarrollado ese nivel de especialización.
En Semantiks, hemos simplificado este panorama en cuatro verticales clave:
- Ingeniería de Datos,
- Ingeniería Analítica,
- Ingeniería de Aprendizaje Automático (ML)
- Ingeniería de Inteligencia Artificial (AI)
Estos son nuestros Cuatro Pilares de la Ingeniería de Datos, y utilizaremos este post para discutir los servicios que ofrecemos dentro de cada vertical y las herramientas que utilizamos para realizar estas tareas.
Ingeniería de Datos
Funciones
En pocas palabras, la ingeniería de datos es el movimiento de datos y el despliegue y mantenimiento de la arquitectura necesaria para soportarlos. Nuestros servicios de ingeniería de datos a menudo toman la forma de desarrollo de pipelines de datos y despliegue de las herramientas y servicios sobre las que se ejecutan esos pipelines. Estos proyectos suelen implicar la migración de datos desde bases de datos operativas como Postgres o MySQL, bases de datos NoSQL como MongoDB, o proveedores de software de terceros como Hubspot o Zendesk a un almacén de datos, como Google Bigquery. Estos procesos se conocen como ETL (Extraer, Transformar, Cargar) o ELT (Extraer, Cargar, Transformar), según el orden de las operaciones.
Gestionar el acceso a los productos e integraciones de datos es otro aspecto de la ingeniería de datos. Esto puede tomar la forma de una integración con una herramienta de BI o la entrega de productos Data-as-a-Service (DaaS) a los clientes. Semantiks se especializa en el diseño e implementación de estos productos DaaS orientados al cliente para ayudar a nuestros clientes a desbloquear nuevas fuentes de ingresos.
Herramientas
Movimiento de Datos
Fivetran: Fivetran es un servicio gestionado que ofrece pipelines de datos flexibles y personalizables desde cientos de fuentes a su almacén de datos, sin necesidad de realizar una inversión significativa en infraestructura. Es una solución ideal para startups en fase inicial que no cuentan con los recursos necesarios para mantener y hacer crecer una plataforma de ingeniería. Fivetran ofrece pruebas gratuitas de 14 días en cada nueva conexión, lo que la convierte en una opción de bajo riesgo. También ofrecen un nivel gratuito para usuarios de bajo volumen.
Airbyte: Airbyte es un competidor de Fivetran que ofrece un modelo de servicio bastante similar. Las ventajas clave sobre Fivetran son su opción de código abierto, que permite el despliegue gratuito en hardware autoalojado, así como una mayor variedad de ubicaciones de sumidero de datos. Encontramos que Fivetran es ligeramente más fiable que Airbyte, pero hemos visto muchos clientes satisfechos de Airbyte y hemos trabajado con éxito con ambos.
GCP Datastream: Datastream es una herramienta gestionada de Change Data Capture (CDC) ofrecida por Google para copiar datos desde bases de datos operativas a su almacén de datos Bigquery, casi en tiempo real. Es una gran opción para los clientes existentes de Google Cloud que no quieren pagar por servicios externos como Fivetran o Airbyte, pero que todavía se beneficiarían de una opción de despliegue sin servidor y de bajo mantenimiento. Hemos encontrado que los requisitos de administración de bases de datos y redes en la nube de Datastream pueden ser más complejos que los de Fivetran/Airbyte, pero tenemos mucha experiencia en su gestión.
Azure Data Factory: Data Factory proporciona una interfaz gráfica agradable para diseñar pipelines de datos en Microsoft Azure. Estos pipelines pueden incluir CDC automatizado, así como copias masivas de una variedad más amplia de fuentes que las que ofrece Datastream (aunque Dataflow y Data Fusion de GCP son mejores análogos a Data Factory). En nuestra experiencia, el desarrollo, mantenimiento y depuración de pipelines de Data Factory requiere una experiencia significativa y puede ser un reto para las startups en fase inicial.
Bigquery Data Transfer Service: En caso de necesidad, el servicio Bigquery Data Transfer puede ser una herramienta eficaz para clientes multi-nube que tienen datos operativos en AWS o Azure. Las instantáneas de la base de datos se pueden copiar en Bigquery desde los cubos de almacenamiento en la nube. Esta es una opción de último recurso para los clientes en fase inicial que prefieren no utilizar servicios gestionados por terceros, pero que no tienen la experiencia técnica para mantener una herramienta CDC como Datastream.
Cloud Run Functions: Hemos utilizado Cloud Functions tanto para casos de uso de entrada de datos como de entrega de datos. Es una excelente opción para cualquier flujo de trabajo que pueda desplegarse en marcos Function-as-a-Service, como la recuperación y devolución de datos. Esto las hace lo suficientemente flexibles como para soportar casos de uso ETL, así como servir datos a los clientes en un modelo DaaS.
Looker Embedded: Looker Embedded es un marco y una biblioteca para servir contenido Looker directamente a los usuarios finales a través de su sitio web o aplicación. Es una forma sencilla y eficaz de monetizar datos mediante la entrega de información directamente a los clientes. Proporcionamos demostraciones y ejemplos de código para incrustar Looker, incluyendo consideraciones clave como la autenticación, la privacidad de los datos y la generación de valor para los consumidores.
Orquestación
Airflow: Apache Airflow es nuestra herramienta preferida para automatizar y gestionar la coordinación entre varios sistemas fuente (es decir, orquestación). Hemos desarrollado patrones para desplegar fácilmente instancias de Airflow autoalojadas en hardware en la nube, y tenemos una experiencia significativa en el desarrollo o la migración de pipelines a DAGs de Airflow. La opción Airflow autoalojada es, en nuestra opinión, la más adecuada para las PYMES que tienen los recursos para mantener la infraestructura de la nube, pero tal vez carecen de los recursos para una implementación gestionada más cara, como Google Cloud Composer. Larger, better funded, data teams have flexibility to choose between the self-hosted or managed routes, in our opinion.
Ingenieniería Analítica
Funciones
La ingeniería analítica como disciplina se centra en el modelado y desarrollo de datos en el almacén. Los ingenieros analíticos son responsables de todo lo que ocurre después de que los datos han sido movidos. Esto puede tomar la forma de transformación de datos, desarrollo de inteligencia de negocios, o diseño de data marts y otros productos de datos. Es todo el trabajo que hay que hacer entre el pipeline de ingeniería de datos y el dashboard orientado al usuario. Construir modelos de datos flexibles y escalables es tanto un arte como una ciencia, y es una habilidad de la que en Semantiks nos enorgullecemos.
Herramientas
Inteligencia de Negocios
Looker: Con más de 7 años de experiencia en Looker, nos consideramos expertos en el desarrollo, escalado y monetización de productos de datos en Looker. Nuestros clientes tienen una amplia gama de experiencia en Looker, y nuestros proyectos han variado desde la configuración inicial de la instancia de Looker hasta mejoras de funciones y optimización. Destacamos en cada fase del uso de Looker, desde el desarrollo de backend, pasando por el modelado de proyectos, hasta la inteligencia de negocios y el dashboarding.
%252017.57.32.png)
Transformación de Datos
dbt**: **Data Build Tool (dbt) es una de las primeras y más populares herramientas para cargas de trabajo de ingeniería analítica. Permite a los desarrolladores aumentar el SQL básico con plantillas legibles por humanos para desplegar consultas como pipelines. Nos gusta dbt porque SQL es un lenguaje muy sencillo y conocido para la transformación de datos con bajas barreras técnicas de entrada. Los recursos humanos necesarios para desarrollar pipelines en dbt son mucho más baratos que los necesarios para construir pipelines complejos en Spark o Python, por ejemplo, lo que lo convierte en una gran opción para las startups en fase inicial. dbt es de código abierto y puede desplegarse gratuitamente en hardware autoalojado, o como un servicio gestionado en DBT Cloud.
Fivetran Transformations: Transformations es otra característica de Fivetran que puede utilizarse para automatizar cargas de trabajo de ingeniería analítica sobre datos que son movidos por Fivetran. Hay transformaciones preconstruidas para una variedad de proveedores de software comunes, pero Fivetran también puede integrarse con un proyecto dbt. Esto nos permite activar automáticamente la transformación SQL después de que Fivetran copie nuestros datos desde el origen. Esta es una sinergia muy buena entre Fivetran y dbt, que es una gran opción para los equipos de datos iniciales que no tienen recursos de ingeniería para mantener la infraestructura del pipeline.
Looker Derived Tables: Las tablas derivadas son un componente clave de la propuesta de valor de Looker, ya que permiten a los desarrolladores desplegar transformaciones de datos en la lectura (es decir, cuando los datos son consumidos por los usuarios finales) o directamente en el almacén a través de Persistent Derived Tables. Al igual que DBT, las tablas derivadas son otra opción gestionada para desplegar la transformación a través de SQL y la configuración legible por humanos. No escalan tan bien como los proyectos DBT, especialmente con dependencias complejas de tablas, pero a menudo incorporamos tablas derivadas como parte de una configuración inicial de Looker para minimizar el tiempo de valorización.
Ingeniería Aprendizaje Automático (ML)
Funciones
Machine Learning Operations, o MLOps, incluye todo lo necesario para soportar el aprendizaje automático fuera del entrenamiento y prueba de modelos. Los ingenieros de ML son responsables de la ingeniería de características, el despliegue de modelos, la evaluación de modelos, el reentrenamiento y la automatización, y la generación de predicciones. Algunas organizaciones también confían en los ingenieros de ML para optimizar la eficiencia y el rendimiento de los modelos. Nuestros proyectos de ingeniería ML suelen implicar el alojamiento y despliegue de modelos para la predicción en línea, soluciones de ingeniería de características y/o pipelines de predicción por lotes.
Herramientas
Entrenamiento de Modelos
Bigquery ML: BQML es un marco para escribir y desplegar algoritmos de aprendizaje automático a través de código SQL. Estos modelos viven en la Consola de Bigquery, aunque la ejecución a menudo ocurre a través de Vertex AI de Google. Nos gusta BQML como solución para entrenar modelos porque viven en el mismo sistema que los datos utilizados para entrenarlos, lo que significa que no hay requisitos complicados de integración de datos. Además, proporcionan una sintaxis estándar y fácil de usar que contrasta con las muchas bibliotecas ML diferentes disponibles a través de Python u otros lenguajes de programación.
AutoML: Vertex AI’s AutoML es un producto de ciencia de datos para automatizar características clave del ciclo de vida de la ciencia de datos, como el ajuste de parámetros y la selección de características. Los modelos AutoML pueden conectarse directamente a tablas en Bigquery o a conjuntos de datos en un lago de datos GCS, eliminando una vez más la necesidad de redes de datos complejas. Hemos descubierto que la falta de explicabilidad de AutoML lo convierte en una caja negra, y preferimos utilizarlo con capacidad exploratoria complementando BQML, en lugar de sustituirlo.
Despliegue de Modelos
Vertex AI: GCP’s Vertex AI ofrece múltiples herramientas útiles para desplegar modelos y servir predicciones. El [registro de modelos] de Vertex AI (https://cloud.google.com/vertex-ai/docs/model-registry/introduction) actúa como un repositorio de artefactos para almacenar, versionar y evaluar modelos ML. Los conjuntos de datos gestionados proporcionan herramientas para la generación de conjuntos de características reutilizables, a partir de fuentes como Bigquery y Google Cloud Storage. Por último, los [puntos finales] del modelo Vertex AI (https://cloud.google.com/vertex-ai/docs/general/deployment) permiten servir predicciones en línea a través de un servicio gestionado. Consideramos que Vertex AI es una opción excelente para los clientes que buscan escalar y optimizar su plataforma ML Ops.
%252018.06.06.png)
Ingeniería de Inteligencia Artificial (IA)
Funciones
La Ingeniería de Inteligencia Artificial (AI) es la más reciente de nuestras cuatro verticales como campo, y como tal es la menos claramente definida. AI Ops incluye el desarrollo y diseño de herramientas y sistemas para desplegar aplicaciones de AI, a escala. Esto incluye el alojamiento y despliegue de modelos LLM y GenAI, la ingeniería rápida, el desarrollo RAG, la evaluación de modelos y productos de AI, y/o la transformación de datos para casos de uso de AI, como la vectorización.
La ingeniería AI está en el centro de lo que hacemos en Semantiks como empresa. Como tal, estamos limitados en las soluciones que ofrecemos a través de Servicios Profesionales para evitar crear competencia con nuestras propias tecnologías propietarias. Sin embargo, ofrecemos soporte limitado para algunos casos de uso de ingeniería AI.
Herramientas
Búsqueda Vectorial
Firestore: Cloud Firestore, la base de datos No-SQL de Firebase, ofrece un tipo de datos nativo para incrustaciones vectoriales. Hemos implementado patrones para añadir automáticamente incrustaciones a las colecciones de Firestore para habilitar algoritmos de búsqueda vectorial. Esto ofrece a los clientes existentes de Firestore una opción para realizar Retrieval-Augmented Generation (RAG) sin desplegar infraestructura adicional de base de datos vectorial.
AI Analytics
LangSmith: Para los clientes existentes de LangSmith, hemos implementado soluciones integrales para la ingeniería de soluciones para la ingesta de datos de rastreo, el modelado en almacén y la visualización a través de Looker.