Todo sobre Apple, Android, Juegos Apks y Sitios de Peliculas

¬ŅQu√© es AWS Glue y c√≥mo se utiliza?

AWS Glue es un servicio administrado de extracción, transformación y carga (ETL) que puede procesar datos almacenados en S3 o DynamoDB y convertirlos a diferentes formatos o esquemas para facilitar su uso en otros servicios como Athena.

¬ŅPor qu√© utilizar AWS Glue?

AWS Glue está destinado a personas que tienen demasiados datos que procesar. Quizás tenga toda una flota de servidores y cada uno de ellos genere archivos de registro. Estos datos se ingieren en S3 para facilitar el almacenamiento, pero hay muchos y es necesario procesarlos primero antes de analizarlos con Athena. Quizás solo esté interesado en algunas columnas de los datos y desee descartar el resto.

AWS Glue puede manejar eso; se encuentra entre sus datos de S3 y Athena, y procesa datos de manera muy similar a como lo hace una utilidad como

 sed 

o

 awk 

lo haría en la línea de comando. Al configurar un rastreador, puede importar datos almacenados en S3 a su catálogo de datos, el mismo catálogo que utiliza Athena para ejecutar consultas. Luego puede modificar estos datos para eliminar las columnas innecesarias o convertir entre formatos.

AWS Glue también puede convertir automáticamente CSV y otros formatos delimitados al formato de columnas Apache Parquet, que es muy recomendable para cualquiera que trabaje con Athena, ya que puede reducir sus costos en un orden de magnitud debido a que requiere muchos menos datos para procesar.

Cómo empezar

Dir√≠gete hacia el Consola de AWS Gluey seleccione ‚ÄúComenzar‚ÄĚ. En la pesta√Īa ‚ÄúRastreadores‚ÄĚ, seleccione ‚ÄúCrear rastreador‚ÄĚ y as√≠gnele un nombre. Elija ‚ÄúAlmacenes de datos‚ÄĚ como tipo de importaci√≥n y config√ļrelo para importar datos desde el dep√≥sito de S3 donde se guardan sus datos.

A continuación, cree un nuevo usuario de IAM para que funcione el rastreador. Créelo desde este cuadro de diálogo y luego selecciónelo en la lista (es posible que deba presionar el botón Actualizar al lado de la lista).

Puede darle a su rastreador un cronograma usando el est√°ndar

 cron 

sintaxis, o seleccionando una de las opciones predefinidas. También puedes ejecutarlo manualmente desde la consola si lo deseas.

Elija una base de datos de salida de su catálogo de datos. Si ha usado Athena antes, es posible que tenga una base de datos personalizada, pero si no, la predeterminada debería funcionar bien. El rastreador crea una tabla para almacenar datos.

Convertir datos

Una vez que sus datos se importan a la base de datos de su cat√°logo de datos, puede usarlos en otras funciones de AWS Glue. Por ejemplo, si desea procesar sus datos, puede crear un nuevo trabajo desde la pesta√Īa ‚ÄúTrabajos‚ÄĚ para manejar la conversi√≥n de datos.

Asigne un nombre al trabajo y seleccione su funci√≥n de IAM. Seleccione ‚ÄúUn script propuesto generado por AWS Glue‚ÄĚ como el script que ejecuta el trabajo, a menos que desee escribir uno manualmente.

En la siguiente pesta√Īa, seleccione la tabla a la que el rastreador import√≥ sus datos. Haga clic en Siguiente y luego seleccione ‚ÄúCambiar esquema‚ÄĚ como tipo de transformaci√≥n.

Puede optar por crear archivos nuevos o actualizar los actuales con el nuevo esquema. Si est√° convirtiendo a Parquet u otros formatos, necesita crear archivos nuevos.

Desde la página siguiente, puedes configurar dónde ocurre toda la magia. Cada columna del archivo fuente se asigna a una columna del archivo de salida. Puede eliminar columnas y agregar otras nuevas si lo desea. De forma predeterminada, es una asignación uno a uno, por lo que si solo estás convirtiendo entre formatos, puedes ignorar esta página.

A continuaci√≥n, acceder√° al editor de secuencias de comandos, donde AWS ha precargado una secuencia de comandos que ejecuta la transformaci√≥n correcta por usted. Puede ejecutarlo manualmente desde esta pesta√Īa en la consola o configurarlo con un disparador para que se ejecute en un horario fijo.

Athena también se puede configurar para cargar datos desde un rastreador de AWS Glue, en lugar de desde una ruta fija en S3. También puede usarlo para controlar con mayor precisión qué datos se importan.