- Análisis›
- Amazon Redshift›
- Preguntas frecuentes sobre Amazon Redshift
Preguntas frecuentes sobre Amazon Redshift
Temas de la página
Aspectos generalesAspectos generales
¿Qué es Amazon Redshift?
Decenas de miles de clientes utilizan Amazon Redshift a diario para ejecutar análisis SQL en la nube, y procesan exabytes de datos para obtener información empresarial. No importa si sus datos en crecimiento están almacenados en almacenes de datos operativos, lagos de datos, servicios de datos de streaming o conjuntos de datos de terceros, Amazon Redshift lo ayuda a acceder, combinar y compartir datos de manera segura con el mínimo movimiento o copia. Amazon Redshift está profundamente integrado con los servicios de base de datos, análisis y machine learning de AWS para emplear enfoques sin ETL o ayudarlo a acceder a datos in situ para realizar análisis en tiempo real, crear modelos de machine learning en SQL y habilitar el análisis de Apache Spark con datos de Redshift. Amazon Redshift sin servidor permite que sus ingenieros, desarrolladores, científicos de datos y analistas comiencen a realizar y escalar análisis, de forma fácil y rápida y en un entorno que no precisa administración. Con su motor de procesamiento masivo en paralelo (MPP) y una arquitectura que separa la computación y el almacenamiento para un escalado eficiente, además de innovaciones basadas en machine learning (por ejemplo, Vista materializada automática), Amazon Redshift está diseñado para escalar y entregar una relación entre precio y rendimiento hasta cinco veces superior a otros almacenamientos de datos en la nube.
¿Cuáles son las razones principales por las que los clientes eligen Amazon Redshift?
Miles de clientes eligen Amazon Redshift para acelerar el tiempo que tardan en obtener información, puesto que se trata de un potente sistema de análisis que se integra bien con servicios de bases de datos y machine learning, está optimizado y puede convertirse en un servicio central para cubrir todas sus necesidades de análisis. Amazon Redshift sin servidor aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles. Amazon Redshift brinda una relación líder entre precio y rendimiento para diversas cargas de trabajo de análisis, sin importar si se trata de creación de paneles, desarrollo de aplicaciones, uso compartido de datos, trabajos de ETL (extracción, transformación, carga) y muchos otros tipos. Con decenas de miles de clientes que ejecutan análisis en terabytes y petabytes de datos, Amazon Redshift optimiza el rendimiento de cargas de trabajo de clientes del mundo real, con base en la telemetría de rendimiento de flota, y brinda un rendimiento capaz de escalar de manera lineal según la carga de trabajo, a la vez que mantiene los costos bajos. Las innovaciones de rendimiento están disponibles para los clientes sin costo adicional. Amazon Redshift le permite obtener información gracias a la ejecución de análisis predictivos y en tiempo real sobre todos los datos de sus bases de datos operativas, lagos de datos, almacenamientos de datos y conjuntos de datos de terceros. Amazon Redshift admite un nivel de seguridad líder en el sector mediante funciones integradas de administración y federación de identidades para el inicio de sesión único (SSO), la autenticación multifactor, el control de acceso a nivel columna, la seguridad a nivel de columna, el control de acceso basado en roles, Amazon Virtual Private Cloud (Amazon VPC) y la capacidad de ajustar el tamaño de los clústeres con mayor rapidez.
¿Cómo simplifica Amazon Redshift la administración del almacenamiento de datos y el análisis?
Amazon Redshift es un servicio completamente administrado por AWS, por lo que usted no debe preocuparse más por las tareas de administración del almacenamiento de datos, como el aprovisionamiento de hardware, la aplicación de parches al software, la instalación, la configuración, la supervisión de nodos y unidades para recuperarse de errores o la creación de copias de seguridad. AWS administra el trabajo que se necesita para configurar, operar y escalar un almacenamiento de datos por usted, lo que lo libera de estas tareas y le permite dedicarse a crear sus aplicaciones. Amazon Redshift sin servidor aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles, y usted solo debe pagar los recursos que utiliza. Amazon Redshift también tiene capacidades de ajuste automático y recomendaciones de apariencia para administrar su almacenamiento de datos en Redshift Advisor. Con Redshift Spectrum, Amazon Redshift administra toda la infraestructura de computación, el equilibrador de carga, la planificación, la programación y la ejecución de sus consultas en datos almacenados en Amazon S3. Amazon Redshift permite realizar análisis de todos sus datos con una integración profunda con servicios de datos y con características como Amazon Aurora sin ETL con Amazon Redshift y consultas federadas, de modo que puede acceder a datos en situ de bases de datos operativas, por ejemplo, Amazon RDS y su lago de datos de Amazon S3. Redshift admite la ingesta de datos optimizada sin código, canalizaciones de datos automatizadas que ingieren datos de streaming o archivos de Amazon S3 de manera automática. Redshift también está integrado con AWS Data Exchange, lo que permite a los usuarios encontrar, suscribirse y consultar conjuntos de datos de terceros y combinarlos con sus datos para obtener información exhaustiva. Gracias a la integración nativa con Amazon SageMaker, los clientes pueden permanecer dentro de su almacenamiento de datos y crear, entrenar y desarrollar modelos de machine learning en SQL. Amazon Redshift cubre todas las necesidades de análisis de SQL con una relación entre precio y rendimiento hasta cinco veces mejor que otros almacenamientos de datos en la nube.
¿Cuáles son las opciones de despliegue de Amazon Redshift?
Amazon Redshift es un servicio completamente administrado que ofrece tanto opciones aprovisionadas como sin servidor, lo que hace más eficiente la ejecución y el escalado de análisis y evitar tener que administrar el almacenamiento de datos. Puede poner en marcho un nuevo punto de conexión de Amazon Redshift sin servidor para aprovisionar de manera automática el almacenamiento de datos en cuestión de segundos o elegir la opción aprovisionada para cargas de trabajo predecibles.
¿Cómo puedo comenzar a usar Amazon Redshift?
Con tan solo unos pocos pasos en la consola de administración de AWS, puede comenzar a consultar los datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, incluidos los conjuntos de datos de referencia de TPC-H, TPC-DS, y de otras consultas de muestra para comenzar a efectuar análisis de inmediato. Para comenzar a utilizar Amazon Redshift sin servidor, elija “Try Amazon Redshift Serverless” (Probar Amazon Redshift sin servidor) y comience a consultar los datos. Comience aquí.
¿Cómo se compara el rendimiento de Amazon Redshift con el de otros almacenamientos de datos?
Los resultados comparativos de referencia de TPC-DS muestran que Amazon Redshift proporciona el mejor rendimiento de precios listo para usar, incluso para un conjunto de datos comparativamente pequeño de 3 TB. Amazon Redshift ofrece un rendimiento de precios hasta cinco veces mejor que otros almacenamientos de datos en la nube. Esto significa que puede beneficiarse del rendimiento de precios líder de Amazon Redshift desde el principio, sin tener que efectuar ajustes manuales. Según nuestra telemetría de flota de rendimiento, también sabemos que la mayoría de cargas de trabajo son cargas de trabajo de consulta breves (cargas de trabajo que se ejecutan en menos de un segundo). Para dichas cargas de trabajo, las últimas comparaciones demuestran que Amazon Redshift brinda una relación entre precio y rendimiento hasta siete veces superior para cargas de trabajo de simultaneidad alta y baja latencia en comparación con otros almacenamientos de datos en la nube. Obtenga más información aquí.
¿Me podrían brindar más información sobre Amazon Redshift y enseñarme a usarlo?
Sí, hay especialistas en Amazon Redshift disponibles para responder preguntas y ofrecer asistencia. Contáctenos y recibirá nuestra respuesta en el plazo de un día hábil para que analicemos cómo AWS puede ayudar a su organización.
¿Qué es el almacenamiento administrado de Amazon Redshift?
El almacenamiento administrado de Amazon Redshift está disponible con los tipos de nodo sin servidor y RA3 y le permite escalar y pagar los recursos informáticos y el almacenamiento de forma independiente, de modo que puede decidir el tamaño del clúster solo en función de sus necesidades informáticas. Este servicio utiliza de forma automática el almacenamiento local basado en SSD de alto rendimiento como caché de nivel 1 y saca partido de optimizaciones como la temperatura de bloqueo de datos, la antigüedad de bloqueo de datos y los patrones de carga de trabajo para brindar un alto rendimiento, a la vez que escala de forma automática el almacenamiento a Amazon S3 cuando es necesario, sin tener que realizar ninguna acción.
¿Cómo uso el almacenamiento administrado de Amazon Redshift?
Si ya utiliza los nodos de almacenamiento denso (DS) o de informática densa (DC) de Amazon Redshift, puede usar el redimensionamiento elástico para actualizar sus clústeres existentes a la nueva instancia informática RA3. Amazon Redshift Serverless y los clústeres que usan la instancia RA3 utilizan de forma automática el almacenamiento administrado por Redshift para guardar los datos. No se requiere ninguna otra acción fuera del uso de Amazon Redshift sin servidor o las instancias RA3 para utilizar esta capacidad.
¿Cómo puedo ejecutar consultas desde Redshift para los datos almacenados en el lago de datos de AWS?
Amazon Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en su lago de datos de Amazon S3, sin la necesidad de cargar datos ni de su procesamiento ETL (extracción, transformación y carga). Cuando emite una consulta SQL, esta va al punto de conexión de Amazon Redshift, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de S3 que deben leerse y solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de Amazon S3.
¿Cuándo debería considerar usar instancias de RA3?
Considere elegir los tipos de nodo RA3 en los casos siguientes:
- Necesita la flexibilidad para escalar y pagar los recursos informáticos de forma separada del almacenamiento.
- Consulta una fracción de su volumen total de datos.
- El volumen de datos crece con rapidez o se espera que crezca rápidamente.
- Desea contar con la flexibilidad para decidir el tamaño del clúster solo en función de sus necesidades de rendimiento.
A medida que la escala de los datos continúa creciendo y alcanza volúmenes de petabytes, la cantidad de datos que se captura en el almacenamiento de datos de Amazon Redshift también aumenta. Es posible que busque varias formas de analizar todos sus datos de manera rentable.
Con las nuevas instancias RA3 de Amazon Redshift con almacenamiento administrado, puede elegir la cantidad de nodos en función de los requisitos de rendimiento y pagar solo el almacenamiento administrado que utilice. Esto le brinda la flexibilidad para determinar el tamaño del clúster RA3 en función de la cantidad de datos que procesa diariamente, sin que aumenten sus costos de almacenamiento. Creadas en AWS Nitro System, las instancias RA3 con almacenamiento administrado utilizan SSD de alto rendimiento para los datos a los que se accede con frecuencia y Amazon S3 para aquellos a los que se accede con poca frecuencia, lo que proporciona facilidad de uso, almacenamiento rentable y rendimiento rápido de consultas.
¿Qué característica puedo usar para el análisis basado en la ubicación?
Amazon Redshift espacial proporciona análisis basados en la ubicación para obtener información valiosa de sus datos. Integra los datos espaciales y empresariales sin problemas para proporcionar análisis que sirvan para la toma de decisiones. Amazon Redshift lanzó el soporte nativo de procesamiento de datos espaciales en noviembre de 2019, con un tipo de datos polimórfico, GEOMETRY, y varias funciones espaciales clave de SQL. Ahora admite el tipo de datos GEOGRAPHY, y nuestra biblioteca de funciones espaciales de SQL ha crecido a 80 unidades. Admitimos todos los tipos de datos espaciales comunes y los estándares, incluidos Shapefiles, GeoJSON, WKT, WKB, eWKT y eWKB. Para obtener más información, visite la página de documentación o la del tutorial espacial de Amazon Redshift.
¿En qué se diferencia la compatibilidad con SQL de Athena con Redshift, y cómo elijo entre estos dos servicios?
Amazon Athena y Amazon Redshift sin servidor abordan diferentes necesidades y casos de uso, aun cuando ambos servicios son sin servidor y permiten usuarios SQL.
Con su arquitectura de procesamiento masivo en paralelo (MPP) que separa la computación y el almacenamiento y las capacidades de optimización automáticas impulsadas por el machine learning, un almacenamiento de datos como Amazon Redshift (sin importar si es sin servidor o aprovisionado) es una gran elección para clientes que necesitan la mejor relación entre precio y rendimiento a cualquier escala para cargas de trabajo complejas de inteligencia empresarial y de análisis. Los clientes pueden utilizar Amazon Redshift como un componente central de su arquitectura de datos con integraciones profundas disponibles para acceder a datos in situ o ingerir y transferir datos al almacenamiento para realizar análisis de alto rendimiento, mediante métodos sin ETL y sin código. Los clientes pueden acceder a datos almacenados en Amazon S3, en bases de datos operativas como Aurora y Amazon RDS o en almacenamiento de datos de terceros mediante la integración AWS Data Exchange y combinarlos con los datos almacenados en el almacenamiento de datos de Amazon Redshift para realizar análisis. Los clientes pueden iniciar con facilidad el almacenamiento de datos y utilizar machine learning con todos esos datos.
Amazon Athena es ideal para realizar análisis interactivos y explorar los datos que se encuentran en su lago de datos o en cualquier origen de datos, a través de un marco de conectores ampliable que incluye más de 30 conectores listos para usar destinados a aplicaciones y sistemas de análisis locales u otros sistemas analíticos en la nube, y todo ello sin necesidad de preocuparse por ingerir o procesar datos. Amazon Athena se basa en motores y marcos de código abierto, como Spark, Presto y Apache Iceberg, lo que le da a los clientes flexibilidad para utilizar Python o SQL o trabajar con formatos de datos abiertos. Si los clientes quieren realizar análisis interactivos con marcos y formatos de datos de código abierto, Amazon Athena es un lugar estupendo para ello.
¿Se aplica la flexibilidad de tamaño al nodo reservado de Redshift?
No, las instancias reservadas de Redshift no son flexibles; solo se aplican al tipo de nodo exacto que reserve.
Análisis de SQL de Amazon SageMaker
¿Cuáles son las ventajas de usar Redshift en SageMaker para el análisis de SQL?
SageMaker simplifica el análisis de SQL al proporcionar una plataforma completa y fácil de usar que conecta varios orígenes de datos y agiliza la exploración de datos. Con una interfaz flexible tipo bloc de notas, puede acceder a los datos de Amazon Simple Storage Service (Amazon S3), Amazon Redshift y otros orígenes de datos, escribir y ejecutar consultas en diferentes motores y crear visualizaciones directamente dentro de la herramienta. La plataforma administra automáticamente los metadatos de sus datos, lo que facilita la comprensión y el descubrimiento de la información. Al integrarse sin problemas en otros servicios de AWS, la plataforma le permite ir más allá del análisis de SQL tradicional y convertir sus datos en información útil con una complejidad técnica mínima.
¿Es necesario migrar mis datos de Amazon S3 o del almacén de datos existente de Amazon Redshift para utilizar SageMaker para el análisis de SQL?
No, no necesita migrar los datos para utilizar SageMaker para el análisis de SQL. Puede descubrir y consultar datos directamente desde varios orígenes, incluidos Amazon S3 (catálogo de datos de AWS Glue y buckets de tablas de Amazon S3), Amazon Redshift (sin servidor y aprovisionado) y 13 orígenes de datos federados adicionales compatibles con los flujos de trabajo de ingeniería de SQL. Amazon SageMaker Lakehouse se conecta sin inconvenientes a sus datos actuales, para que pueda centrarse en la información en lugar de perder tiempo migrando información de un lado a otro. En unos pocos pasos, podrá explorar sus datos, ejecutar consultas y descubrir información empresarial valiosa sin inconvenientes técnicos.
¿Cómo se cargan los datos y se empieza a utilizar SageMaker para el análisis de SQL?
Para empezar, SageMaker ofrece dos maneras de introducir datos a la plataforma para el análisis de SQL. Si almacena la información en Amazon S3, el SQL de SageMaker le permite ejecutar consultas directamente sobre esos datos con el lago de datos. Como alternativa, puede cargar datos en su almacén de datos mediante la ejecución de los comandos COPY. Si tiene datos locales en su escritorio, SageMaker le permite cargar sus archivos de datos directamente desde su ordenador arrastrándolos y soltándolos en la plataforma de SageMaker. Además, puede utilizar zero-ETL para extraer datos de su almacén de datos operativos. El proceso completo está diseñado para eliminar las barreras técnicas, lo que permite centrarse en descubrir información en lugar de tener que enfrentarse a procesos complejos de carga de datos.
¿Cuál es la experiencia de los libros de consultas de SageMaker?
Amazon SageMaker Unified Studio (versión preliminar) ofrece una interfaz potente y fácil de usar, con estilo de bloc de notas, para realizar análisis de SQL completos. Puede escribir y ejecutar código SQL en celdas independientes, crear gráficos y visualizaciones y explorar datos unificados de diferentes orígenes, como Amazon S3, Amazon Redshift y varias fuentes federadas, a través de SageMaker Lakehouse. La plataforma también ofrece características útiles como la función de autocompletar y comprobar la sintaxis para facilitar la creación de SQL. También puede utilizar la funcionalidad de IA generativa con el SQL generativo de Amazon Q, que proporciona recomendaciones de código SQL en lenguaje natural. SageMaker está diseñado para hacer que los análisis de SQL sean más intuitivos, flexibles y accesibles para todos los usuarios de datos.
¿Cómo puedo compartir mis consultas SQL o modelos de datos en SageMaker?
Amazon SageMaker Unified Studio (versión preliminar) ofrece “proyectos”, es decir, un espacio de trabajo digital colaborativo que ayuda a los equipos a organizar y administrar su trabajo de análisis de datos. Imagine que es como una carpeta compartida en la que puede almacenar consultas SQL, modelos de datos, código y otros recursos en una ubicación segura. Al crear un proyecto, establece un entorno centralizado en el que se puede invitar a los miembros del equipo, darles permisos de acceso específicos y trabajar juntos sin problemas. En este espacio, puede distribuir fácilmente Querybooks, que alojan sus consultas y modelos de datos, y conceder acceso a orígenes de datos como Amazon S3 y Redshift, y proporcionar recursos informáticos compartidos. La plataforma admite el control de versiones mediante la integración de Git, lo que permite a su equipo realizar un seguimiento de los cambios, colaborar en el código y mantener un historial claro de su trabajo de análisis de SQL. Este enfoque garantiza que todos los miembros del equipo puedan ver, editar y ejecutar consultas, al mismo tiempo que se mantiene la seguridad y la coherencia en todas las cargas de trabajo de análisis de SQL.
¿Cuál es el modelo de precios del análisis de SQL en SageMaker?
El uso del editor de SQL en SageMaker no tiene costos adicionales. Solo paga por el uso de los motores informáticos disponibles, como Amazon Athena y Amazon Redshift.
¿Qué es el SLA para el análisis de SQL en Amazon SageMaker?
Los acuerdos de nivel de servicio (SLA) del análisis de SQL en Amazon SageMaker están directamente relacionados con los SLA de los motores SQL subyacentes: Amazon Redshift y Amazon Athena. Los clientes pueden encontrar información detallada sobre los compromisos de servicio en las páginas correspondientes de los acuerdos de nivel de servicio de Amazon Redshift y Amazon Athena.
Sin servidor
¿Qué es Amazon Redshift sin servidor?
Amazon Redshift sin servidor es una opción sin servidor de Amazon Redshift que hace más eficiente la ejecución y el escalado de análisis en segundos, sin necesidad de configurar ni administrar una infraestructura de almacenamiento de datos. Con Redshift sin servidor, cualquier usuario, incluidos los analistas de datos, los desarrolladores, los profesionales de negocios y los científicos de datos, puede obtener información de los datos con solo cargar y consultar los datos que se encuentran en el almacenamiento de datos.
¿Cómo puedo comenzar a usar Amazon Redshift sin servidor?
Con tan solo unos pocos pasos en la consola de administración de AWS, puede elegir “Configure Amazon Redshift Serverless” (Configurar Amazon Redshift sin servidor) y comenzar a consultar datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, como los datos del clima, los datos de censo y los conjuntos de datos de referencia, junto con las consultas de muestra para comenzar a realizar análisis de inmediato. Puede crear bases de datos, esquemas, tablas y cargar datos desde Amazon S3, datos compartidos de Amazon Redshift o restaurar datos desde una instantánea existente de clúster aprovisionada de Redshift. También puede consultar datos directamente en formatos abiertos, como Parquet u ORC, en los lagos de datos de Amazon S3 o consultar los datos de las bases de datos operativas, como Amazon Aurora, Amazon RDS PostgreSQL y MySQL. Consulte la guía de introducción.
¿Cuáles son los beneficios del uso de Amazon Redshift sin servidor?
Si no cuenta con experiencia en la administración del almacenamiento de datos, no debe preocuparse por instalar, configurar, administrar clústeres ni ajustar el almacenamiento. Puede enfocarse en obtener información importante de sus datos o en cumplir los resultados empresariales principales a través de los datos. Solo pagará lo que utilice y mantendrá los costos administrables. Continuará beneficiándose de todo el rendimiento de excelencia, las características completas de SQL, la integración constante con los lagos de datos y los almacenamientos de datos operativos, los análisis predictivos integrados y las capacidades de uso compartido de datos de Amazon Redshift. Si necesita tener un control pormenorizado de su almacenamiento de datos, puede aprovisionar clústeres de Redshift.
¿Cómo funciona Amazon Redshift sin servidor con otros servicios de AWS?
Puede continuar usando todas las funcionalidades completas de análisis de Amazon Redshift, como las combinaciones complejas, las consultas directas a los datos de los lagos de datos y las bases de datos operativas de Amazon S3, las vistas materializadas, los procedimientos almacenados, el soporte de datos semiestructurados y el ML, así como también el alto rendimiento a escala. Todos los servicios relacionados a los que se integra Amazon Redshift (como Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation y AWS Glue) continúan en funcionamiento con Amazon Redshift sin servidor.
¿Qué casos de uso puedo administrar con Amazon Redshift sin servidor?
Puede continuar ejecutando todos los casos de uso de análisis. Con un simple flujo de trabajo de introducción, el escalado automático y la capacidad de pago por uso, la experiencia de Amazon Redshift sin servidor ahora hace aún más eficiente y rentable la ejecución de entornos de desarrollo y prueba que deben iniciarse rápido, análisis empresariales a medida, cargas de trabajo con necesidades de computación variables e impredecibles y cargas de trabajo intermitentes o esporádicas.
Ingesta y carga de datos
¿Cómo puedo cargar datos en el almacenamiento de datos de Amazon Redshift?
Puede cargar datos en Amazon Redshift desde varios orígenes de datos, entre otros, Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en equipos locales. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacenamiento de datos. Los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos “insert” de SQL para insertar los datos. Tenga en cuenta que este procedimiento es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de cómputo, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.
¿En qué se diferencia la copia automática de Redshift del comando de copia?
La copia automática de Redshift brinda la capacidad de automatizar las instrucciones de copia al rastrear las carpetas de Amazon S3 e ingerir nuevos archivos sin la intervención del cliente. Sin la copia automática, una instrucción de copia empieza de manera inmediata el proceso de ingesta para los archivos existentes. La copia automática amplia el comando de copia existente y brinda la capacidad de 1) automatizar el proceso de ingesta de archivos al supervisar rutas de Amazon S3 especificadas para archivos nuevos; 2) reutilizar configuraciones de copia (lo que reduce la necesidad de crear y ejecutar nuevas instrucciones de copia para tareas de ingesta repetitivas) y 3) mantener un seguimiento de archivos cargados para evitar la duplicación de datos.
¿Cómo puedo comenzar a usar la copia automática de Redshift?
Para comenzar a utilizarla, los clientes deben contar con una carpeta de Amazon S3, a la que se puede acceder mediante su punto de conexión sin clúster/sin servidor a través del uso de roles de IAM asociados y crear una tabla de Redshift que se utilizará como destino. Una vez que la ruta de Amazon S3 y la tabla de Redshift estén preparadas, los clientes pueden crear un trabajo de copia mediante el comando de copia. Tras la creación del trabajo de copia, Redshift comienza a rastrear la ruta de Amazon S3 especificada entre bambalinas e inicia las instrucciones de copia definidas por el usuario para copiar de manera automática nuevos archivos en la tabla de destino.
¿Cuáles son los casos de uso de la integración de Amazon Redshift para Apache Spark?
Los casos de uso incluyen: 1) clientes que utilizan Amazon EMR y AWS Glue para ejecutar trabajos de Apache Spark que acceden y cargan datos en Amazon Redshift como parte de las canalizaciones de ingesta de datos y transformación (lotes y streaming); 2) clientes que utilizan Amazon SageMaker para aplicar machine learning con Apache Spark y deben acceder a datos almacenados en Amazon Redshift para ingeniería y transformación de características. 3) Clientes de Amazon Athena que utilizan Apache Spark para realizar análisis interactivos sobre los datos de Amazon Redshift.
¿Cuáles son los beneficios de la integración de Amazon Redshift para Apache Spark?
Baikal ofrece los siguientes beneficios:
- Facilidad de uso para comenzar a ejecutar aplicaciones de Apache Spark en datos de Amazon Redshift sin tener que preocuparse por los pasos manuales necesarios para configurar y mantener versiones no certificadas de Spark
- Comodidad de usar Apache Spark desde varios servicios de AWS, como Amazon EMR, AWS Glue, Amazon Athena y Amazon SageMaker con Amazon Redshift gracias a una configuración mínima
- Rendimiento mejorado al ejecutar aplicaciones de Apache Spark en Amazon Redshift
¿Cuándo debería usar Amazon Aurora sin ETL para Amazon Redshift en lugar de consultas federadas?
Amazon Aurora sin ETL para Amazon Redshift permite a los clientes de Amazon Aurora y Amazon Redshift ejecutar análisis y machine learning casi en tiempo real sobre petabytes de datos transaccionales, ya que brinda una solución completamente administrada para hacer que los datos transaccionales de Amazon Aurora estén disponibles en Amazon Redshift en cuestión de segundos tras escribirse. Con Amazon Aurora sin ETL para Amazon Redshift, los clientes solo tienen que elegir tablas de Amazon Aurora que contengan los datos que desean analizar con Amazon Redshift, y esta característica replica de manera integral el esquema y los datos en Amazon Redshift. De este modo, reduce la necesidad de que los clientes tengan que crear y mantener canalizaciones de datos complejas, así que pueden centrarse en mejorar sus aplicaciones. Con Amazon Aurora sin ETL para Amazon Redshift, los clientes pueden replicar datos de diferentes clústeres de base de datos de Amazon Aurora en la misma instancia de Amazon Redshift para obtener información exhaustiva en un buen número de aplicaciones, a la vez que consolidan sus activos de análisis principales, de modo que obtienen importantes ahorros en costos y una mayor eficiencia operativa. Además, con Amazon Aurora sin ETL para Amazon Redshift, los clientes también pueden acceder a las capacidades de análisis principales y machine learning de Amazon Redshift, como vistas materializadas, uso compartido de datos y acceso federado a múltiples almacenamientos de datos y lagos de datos. Esto permite a los clientes combinar análisis principales casi en tiempo real para obtener de forma eficaz información sensible al tiempo que fundamente decisiones empresariales. Por otra parte, los clientes utilizan Amazon Aurora para transacciones y Amazon Redshift para análisis, así que no se comparten recursos de computación y se benefician de una solución eficaz y estable a nivel operativo.
¿Cómo se relaciona o funciona Amazon Aurora sin ETL para Amazon Redshift con otros servicios de AWS?
La integración de Amazon Aurora sin ETL con Amazon Redshift ofrece una integración perfecta entre los dos servicios para el análisis transaccional.
¿Cómo funciona la ingesta de datos de streaming?
Los datos de streaming son diferentes de las tablas de bases de datos tradicionales, puesto que al consultar una secuencia está capturando la evolución de una relación que varía en el tiempo. Las tablas, por otra parte, capturan una instantánea de un punto en el tiempo de esta relación que varía en el tiempo. Los clientes de Amazon Redshift están acostumbrados a trabajar con tablas regulares y realizar procesamientos descendentes de datos (como transformaciones) mediante un modelo por lotes tradicional, por ejemplo, “ELT”. Brindamos un método para utilizar vistas materializadas de Redshift, de modo que los clientes puedan materializar con facilidad una vista de un punto en el tiempo de la secuencia, tal como se acumuló en el momento de la consulta y lo más rápido posible para dar soporte a flujos de trabajo de ELT.
Uso compartido de datos
¿Cuáles son los casos de uso para el uso compartido de datos?
Entre los casos de uso principales se incluyen los siguientes:
- un clúster central de ETL que comparte datos con muchos clústeres de inteligencia empresarial y análisis para proporcionar aislamiento de las cargas de trabajo de lectura y capacidad opcional de carga
- un proveedor de datos que los comparte con consumidores externos
- el uso compartido de conjuntos de datos comunes, como clientes, productos en diferentes grupos empresariales y colaboración en el análisis amplio y la ciencia de datos
- la descentralización del almacenamiento de datos para simplificar su administración
- el uso compartido de datos entre los entornos de desarrollo, prueba y producción
- el acceso a los datos de Redshift desde otros servicios de análisis de AWS.
¿Qué son las consultas entre bases de datos en Amazon Redshift?
Con las consultas entre bases de datos, puede consultar datos y combinarlos sin problemas de cualquier base de datos de Redshift a la que tenga acceso, independientemente de la base de datos a la que esté conectado. Esto puede incluir bases de datos locales en el clúster y también conjunto de datos compartidos que estén disponibles en clústeres remotos. Las consultas entre bases de datos le dan flexibilidad para organizar los datos como bases de datos separadas para admitir configuraciones multiinquilino.
¿Cuáles son los usuarios principales de AWS Data Exchange?
AWS Data Exchange hace que el intercambio y el uso seguros de los datos de terceros en AWS sea más eficiente para los clientes de AWS. Los analistas de datos, los administradores de productos, los administradores de carteras, los científicos de datos, los vendedores analistas cuantitativos, los técnicos en ensayos clínicos y los desarrolladores en casi todos los sectores quisieran tener acceso a más datos para impulsar el análisis, formar modelos de ML y tomar decisiones basadas en los datos. Pero no existe ningún lugar único para buscar datos de varios proveedores ni consistencia en la forma en que los proveedores entregan sus datos, lo que los lleva a tener que lidiar con una combinación de medios físicos enviados, credenciales de FTP y llamadas a la API hechas a medida. Por el contrario, muchas organizaciones quisieran poner sus datos a disposición para fines comerciales o de investigación, pero es demasiado difícil y costoso crear y mantener la entrega de datos, el otorgamiento de derechos y la tecnología de facturación, lo que deprime aún más el suministro de datos valiosos.
Escalabilidad y simultaneidad
¿Cómo escalo el tamaño y el rendimiento del clúster de almacenamiento de datos de Amazon Redshift?
Amazon Redshift sin servidor aprovisiona de manera automática capacidad de almacenamiento de datos con el objetivo de brindar un rendimiento excelente para todos sus análisis. Amazon Redshift sin servidor ajusta la capacidad en segundos, a fin de ofrecer de forma consistente operaciones de alto rendimiento y simplificadas para las cargas de trabajo más exigentes y volátiles. Con la característica de ajuste de escalado de simultaneidad, puede admitir consultas y usuarios simultáneos ilimitados, con un rendimiento de consulta ágil constante. Cuando el escalado de simultaneidad está habilitado, Amazon Redshift agrega automáticamente capacidad de clúster cuando las experiencias del clúster aumentan en la cola de consultas.
En el caso del escalamiento manual, si quiere aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar la cantidad de nodos del clúster de almacenamiento de datos con la adaptación elástica del tamaño a través de la Consola de administración de AWS o con la API de ModifyCluster. Si modifica el clúster de almacenamiento de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de uso de computación, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacenamiento de datos de Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas definidas por el usuario mediante la funcionalidad de métricas personalizadas de Amazon CloudWatch.
Con Amazon Redshift Spectrum, puede ejecutar varios clústeres de Redshift y acceder a los mismos datos en Amazon S3. Puede utilizar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Redshift para cualquier procesamiento pendiente.
¿El clúster de almacenamiento de datos seguirá disponible durante el escalamiento?
Depende. Cuando utiliza la característica de ajuste de escala de simultaneidad, el clúster se encuentra plenamente disponible para operaciones de lectura y escritura. Con el ajuste de tamaño elástico, el clúster no podrá utilizarse durante los cuatro a ocho minutos que dura el período de ajuste de tamaño. Con la elasticidad del almacenamiento de RA3 de Redshift en almacenamiento administrado, el clúster se encuentra completamente disponible y los datos se trasladan de forma automática entre el almacenamiento administrado y los nodos de computación.
¿Qué es la adaptación elástica de tamaño y en qué se diferencia de la configuración de escalamiento de simultaneidad?
El redimensionamiento elástico agrega o elimina nodos de un solo clúster de Redshift en minutos para administrar el rendimiento de las consultas. Por ejemplo, una carga de trabajo de ETL durante ciertas horas en un informe diario o de fin de mes podría necesitar recursos adicionales de Amazon Redshift para completarse a tiempo. El escalado de simultaneidad agrega recursos de clústeres adicionales para aumentar la simultaneidad general de las consultas.
¿Puedo acceder directamente a los clústeres de configuración del escalamiento de simultaneidad?
No. El escalado de simultaneidad es un grupo masivamente escalable de recursos de Amazon Redshift a los que los clientes no tienen acceso directo.
Seguridad
¿De qué manera Amazon Redshift protege mis datos?
Amazon Redshift admite un nivel de seguridad líder en el sector mediante funciones integradas de administración y federación de identidades para el inicio de sesión único (SSO), la autenticación multifactor, el control de acceso a nivel columna, la seguridad a nivel de columna, el control de acceso basado en roles y Amazon Virtual Private Cloud (Amazon VPC). Al utilizar Amazon Redshift, los datos se cifran en tránsito y en reposo. Todas las características de seguridad listas para usar de Amazon Redshift se ofrecen sin costo adicional a fin de satisfacer los requisitos de seguridad, privacidad y conformidad más exigentes. De este modo, se beneficia de que AWS admita más normas de seguridad y certificaciones de cumplimiento que cualquier otro proveedor, incluidas ISO 27001, SOC, HIPAA/HITECH y FedRAMP.
¿Redshift es compatible con controles de acceso pormenorizado?
Sí, Amazon Redshift ofrece compatibilidad con el control de acceso basado en roles. El control de acceso a nivel de filas permite asignar uno o más roles a un usuario y asignar permisos de sistema y de objeto según el rol. Puede utilizar los roles del sistema predeterminados, como usuario raíz, dba, operador y administradores de seguridad, o crear sus propios roles.
¿Amazon Redshift es compatible con el enmascaramiento o la tokenización de datos?
Las funciones definidas por el usuario (UDF) de AWS Lambda le permiten utilizar una función de AWS Lambda como UDF en Amazon Redshift e invocarla desde las consultas SQL de Redshift. Esta funcionalidad le permite escribir extensiones personalizadas para su consulta SQL y lograr una mejor integración con otros servicios o productos de terceros. Puede escribir las UDF para habilitar la tokenización externa, el enmascaramiento de datos, la identificación o desidentificación de datos mediante la integración a proveedores como Protegrity y proteger o desproteger datos confidenciales basados en los permisos y grupos del usuario, en momentos de consultas.
Gracias a la compatibilidad con enmascaramiento de datos dinámicos, los clientes pueden proteger con facilidad sus datos confidenciales y controlar el acceso de manera pormenorizada mediante la administración de políticas de enmascaramiento de datos. Supongamos que sus aplicaciones tienen varios usuarios y objetos con datos confidenciales que no pueden estar expuestos a todos los usuarios. Su deber es brindar un nivel de seguridad pormenorizado diferente para cada grupo de usuarios. El enmascaramiento de datos dinámico de Redshift puede configurarse para permitir a los clientes definir valores de datos enmascarados consistentes, que preserven el formato y que sean irreversibles. Una vez que la característica esté disponible de manera general, podrá comenzar a utilizarla de inmediato. Los administradores de seguridad pueden crear y aplicar políticas utilizando tan solo unos pocos comandos.
¿Amazon Redshift admite el inicio de sesión único?
Sí. Los clientes que quieran utilizar sus proveedores de identidad corporativa, como Microsoft Azure Active Directory, los servicios federados de Active Directory, Okta, Ping Federate, u otros proveedores de identidad compatibles con SAML, pueden configurar Amazon Redshift para proporcionar inicio de sesión único. Puede iniciar sesión mediante inicio de sesión único en el clúster de Amazon Redshift con identidades de Microsoft Azure Active Directory (AD). Esto le permite utilizar iniciar sesión en Redshift sin que estas identidades de Azure Active Directory se dupliquen en Redshift.
¿Amazon Redshift es compatible con la autenticación multifactor (MFA)?
Sí. Puede utilizar la autenticación multifactor (MFA) para contar con seguridad adicional cuando se autentique en su clúster de Amazon Redshift.
Disponibilidad y durabilidad
¿Qué sucede con la disponibilidad y durabilidad de los datos en un clúster de almacenamiento de datos en caso de que falle un único nodo?
Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacenamiento de datos. En los clústeres de computación densa (DC) y de almacenamiento denso (DS2), los datos se almacenan en los nodos de computación para garantizar la alta durabilidad de los datos. Cuando se reemplaza un nodo, los datos se actualizan desde la copia de espejo que se encuentra en el otro nodo. Los clústeres RA3 y Redshift sin servidor no se ven afectados de la misma manera debido a que los datos se almacenan en Amazon S3 y la unidad local solo se usa como una memoria caché de datos. El clúster de almacenamiento de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se agregue a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde Amazon S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.
¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacenamiento de datos si se produce un corte de energía en la zona de disponibilidad (AZ) del clúster?
Si la zona de disponibilidad del clúster de almacenamiento de datos de Amazon Redshift es una implementación single-AZ y la zona de disponibilidad del clúster deja de estar disponible, Amazon Redshift moverá automáticamente el clúster a otra zona de disponibilidad (AZ) de AWS sin que se pierdan datos o se produzcan cambios en la aplicación. Para activar esto, habilite la capacidad de reubicación en el ajuste de configuración del clúster.
¿Por qué debería usar un despliegue multi-AZ de Redshift?
Al contrario que con las implementaciones single-AZ, ahora los clientes pueden mejorar la disponibilidad de Redshift al ejecutar su almacenamiento de datos en una implementación multi-AZ. Una implementación multi-AZ le permite ejecutar su almacenamiento de datos en múltiples zonas de disponibilidad (AZ) de AWS en simultáneo, y continuar operando en escenarios de fallas imprevistas. No se requieren cambios de aplicación para mantener la continuidad empresarial, dado que la implementación multi-AZ se administra como un único almacenamiento de datos con un punto de conexión. Las implementaciones multi-AZ reducen el tiempo de recuperación al garantizar la capacidad para recuperarse de manera automática y están destinadas a clientes con aplicaciones analíticas críticas para el negocio que requieren los niveles más altos de disponibilidad y resistencia a los errores de las zonas de disponibilidad. Esto también permite a los clientes implementar una solución con un cumplimiento más elevado respecto a las recomendaciones del pilar de fiabilidad de AWS Well-Architected Framework. Para obtener más información acerca de Amazon Redshift multi-AZ, consulte aquí.
¿Qué significan RPO y RTO? ¿Qué RPO y RTO son compatibles con una implementación multi-AZ?
RPO es un acrónimo para Recovery Point Objective (objetivo de punto de recuperación), un término que describe la garantía de antigüedad de los datos en caso de errores. RPO es el intervalo de tiempo máximo aceptable desde el último punto de recuperación de datos. De este modo, determina lo que se considera una pérdida de datos aceptable entre el último punto de recuperación y la interrupción del servicio. Redshift multi-AZ admite un RPO = 0, lo que significa que se garantiza que los datos están actualizados en caso de un error. Nuestras pruebas previas al lanzamiento descubrieron que el RTO con las implementaciones Multi-AZ de Amazon Redshift es inferior a 60 segundos o menos en el improbable caso de que se produzca un error en la zona de disponibilidad.
¿En qué se diferencia Redshift Multi-AZ con la característica existente de Reubicación de Redshift?
Reubicación de Redshift está habilitada de manera predeterminada en todos los clústeres y puntos de conexión sin servidor de RA3 nuevos, lo que permite que un almacenamiento de datos se reinicie en otra zona de disponibilidad en caso de una interrupción a gran escala, sin ninguna pérdida de datos ni costo adicional. Aunque utilizar Reubicación no tiene ningún costo, la característica tiene sus limitaciones, ya que es un enfoque de mejor esfuerzo sujeto a la disponibilidad de los recursos en la zona de disponibilidad para la recuperación y el objetivo de tiempo de recuperación (RTO) puede verse afectado por otros errores relacionados con el inicio de un nuevo clúster. Esto puede dar lugar a tiempos de recuperación de entre 10 y 60 minutos. Redshift multi-AZ es compatible con requisitos de disponibilidad alta, ya que brinda un RTO que puede medirse en decenas de segundos y garantiza una operación continuada, puesto que no está sujeta a limitaciones de capacidad ni otros errores potenciales que surgen al crear un nuevo clúster.
Consultas y análisis
¿Amazon Redshift y Redshift Spectrum son compatibles con el paquete de software de inteligencia empresarial y las herramientas de extracción, transformación y carga (ETL) existentes?
Sí, Amazon Redshift utiliza el estándar del sector SQL y se obtiene acceso a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift en la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial (BI) y de ETL, algunos de los cuales actualmente ofrecen pruebas gratuitas para ayudarlo a comenzar a cargar los datos y analizarlos. También puede visitar AWS Marketplace para desplegar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.
Amazon Redshift Spectrum admite todas las herramientas de cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.
Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.
¿Qué formatos de datos y de compresión admite Amazon Redshift Spectrum?
Amazon Redshift Spectrum actualmente admite muchos formatos de datos de código abierto, incluidos Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV.<br>Amazon Redshift Spectrum actualmente admite la compresión Gzip y Snappy.
¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?
De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.
Uso Hive Metastore para almacenar metadatos de mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?
Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL contra tiendas de metadatos Hive.
¿Cómo obtengo una lista de todas las tablas de bases de datos externas que se crearon en mi clúster?
Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.
¿Redshift admite el uso de Machine Learning con SQL?
Sí, la característica de Amazon Redshift ML facilita a los usuarios de SQL crear, entrenar e implementar modelos de machine learning (ML) con comandos SQL conocidos. El machine learning de Amazon Redshift le permite potenciar sus datos en Amazon Redshift con Amazon SageMaker, un servicio de machine learning completamente administrado. Amazon Redshift soporta tanto el aprendizaje sin supervisar (K-Means) como el aprendizaje supervisado (Autopilot, XGBoost, algoritmos MLP). También puede utilizar los servicios de AWS Language AI para traducir, redactar y analizar los campos de texto en las consultas SQL con funciones UDF de Lambda prefabricadas; consulte la publicación del blog.
¿Amazon Redshift proporciona una API para consultar datos?
Amazon Redshift proporciona una API de datos que usted puede usar para acceder fácilmente a los datos desde Amazon Redshift con todos los tipos de aplicaciones tradicionales, en contenedores, sin servidor, basadas en servicios web, nativas en la nube y basadas en eventos. La API Datos simplifica el acceso a Amazon Redshift ya que no tiene la necesidad de configurar controladores y administrar conexiones de bases de datos. En cambio, puede ejecutar comandos SQL en un clúster de Amazon Redshift simplemente mediante una llamada a un punto de enlace de API asegurado, proporcionado por la API Datos. La API Datos se encarga de administrar las conexiones de la base de datos y de almacenar los datos en búfer. La API Datos es asincrónica, por lo que puede recuperar sus resultados luego. Los resultados de la consulta se conservan por 24 horas.
¿Qué tipos de credenciales puedo usar con la API de datos de Amazon Redshift?
La API Datos admite credenciales IAM y el uso de una clave secreta de AWS Secrets Manager. La API Datos une credenciales de AWS Identity and Access Management (IAM) para que pueda usar proveedores de identidad como Okta o Azure Active Directory o credenciales de bases de datos guardadas en Secrets Manager sin pasar credenciales de bases de datos en llamadas a la API.
¿Puedo usar la API de datos de Amazon Redshift desde la interfaz de la línea de comandos (CLI) de AWS?
Sí, puede usar la API Datos de la CLI de AWS al usar la opción de línea de comando de datos de AWS Redshift.
¿La API de datos de Redshift está integrada con otros servicios de AWS?
Puede usar la API Datos de otros servicios como AWS Lambda, AWS Cloud9, AWS AppSync y Amazon EventBridge.
¿Tengo que pagar por separado para usar la API de datos de Amazon Redshift?
No, no se efectúan cargos separados por usar la API Datos.
Integraciones sin ETL
¿Qué es Zero-ETL?
Zero-ETL es un conjunto de integraciones totalmente administradas por AWS que elimina o minimiza la necesidad de crear canalizaciones de datos de extracción, transformación y carga (ETL). Zero-ETL pone a disposición los datos en SageMaker Lakehouse y Amazon Redshift desde múltiples orígenes operativos, orígenes transaccionales y aplicaciones empresariales. ETL es el proceso de combinación, limpieza y normalización de datos de diferentes orígenes para prepararlos para cargas de trabajo de análisis, IA y ML. Los procesos ETL tradicionales consumen mucho tiempo y son complejos de desarrollar, mantener y escalar. En cambio, las integraciones sin ETL facilitan la migración de datos punto a punto sin necesidad de crear y operar canalizaciones de datos de ETL.
Visite ¿Qué es sin ETL? para obtener más información.
¿Qué desafíos de ETL resuelve la integración sin ETL?
Las integraciones sin ETL resuelven muchos de los desafíos de la migración de datos existentes en los procesos de ETL tradicionales, incluidos:
- Mayor complejidad del sistema debido a la complejidad de las reglas de la asignación de datos, el manejo de errores y los requisitos de seguridad
- Costos adicionales derivados del creciente volumen de datos, las actualizaciones de la infraestructura y el mantenimiento
- Retraso en el tiempo de análisis, la IA y el machine learning debido al desarrollo y la implementación de código personalizado, lo que provoca la pérdida de oportunidades para casos de uso en tiempo real.
¿Cuáles son las ventajas de zero-ETL?
- Mayor agilidad: Zero-ETL simplifica la arquitectura de datos y reduce los esfuerzos de ingeniería de datos. Permite incluir nuevos orígenes de datos sin necesidad de volver a procesar grandes cantidades de datos. Esta flexibilidad mejora la agilidad, respalda la toma de decisiones basada en datos y la innovación rápida.
- Rentabilidad: Zero-ETL utiliza tecnologías de integración de datos que son escalables y nativas en la nube, lo que permite a las empresas optimizar los costos en función del uso real y las necesidades de procesamiento de datos. Las organizaciones reducen los costos de infraestructura, los esfuerzos de desarrollo y los gastos generales de mantenimiento.
- Reducción del tiempo de generación de información: los procesos ETL tradicionales suelen implicar actualizaciones periódicas por lotes, lo que provoca un retraso en la disponibilidad de los datos. Por otro lado, las integraciones sin ETL proporcionan acceso a los datos casi en tiempo real, para ofrecer datos más actualizados para el análisis, la inteligencia artificial y el machine learning, y la elaboración de informes. Obtiene información más precisa y oportuna para casos de uso como paneles de control en tiempo real, experiencia de juego optimizada, monitoreo de la calidad de los datos y análisis del comportamiento de los clientes. Las organizaciones pueden hacer predicciones basadas en datos con más confianza, mejorar la experiencia de los clientes y promover los conocimientos basados en datos en toda la empresa.
¿Qué integraciones sin ETL están disponibles en AWS en la actualidad?
En re:Invent 2024, anunciaremos las siguientes cuatro integraciones sin ETL:
- Amazon SageMaker Lakehouse y Amazon Redshift admiten integraciones sin ETL desde aplicaciones
- Integración sin ETL de Amazon DynamoDB con Amazon SageMaker Lakehouse
- Integración sin ETL de Amazon OpenSearch Service con registros de Amazon CloudWatch
- Integración sin ETL de Amazon OpenSearch Service con Amazon Security Lake
Desde el lanzamiento de las integraciones sin ETL, se han presentado siete integraciones:
- Integración sin ETL de Amazon Aurora MySQL con Amazon Redshift
- Integración sin ETL de Amazon Aurora PostgreSQL con Amazon Redshift
- Amazon Relational Database Service (Amazon RDS) para la integración sin ETL de MySQL con Amazon Redshift
- Integración sin ETL de Amazon DynamoDB con Amazon OpenSearch Service
- Integración sin ETL de Amazon DocumentDB con Amazon OpenSearch Service
- Integración sin ETL de Amazon OpenSearch Service con Amazon Simple Storage Service (Amazon S3)
- Integración sin ETL de Amazon DynamoDB con Amazon Redshift
¿Cuál es el modelo de precios para sin ETL?
Para obtener más información acerca de los precios, visite las páginas de precios de Amazon Redshift, AWS Glue y SageMaker Lakehouse.
¿Dónde puedo obtener más información acerca de Zero-ETL y esta característica nueva?
Para obtener más información acerca de Zero-ETL, visite ¿Qué es Zero-ETL?
¿Cómo se administran los cambios de esquema con la integración sin ETL?
Estos son algunos puntos clave sobre cómo se administran los cambios de esquema:
- Las instrucciones DDL como CREAR TABLA, ALTERAR TABLA, ELIMINAR TABLA, etc., se replican automáticamente de Aurora a Amazon Redshift.
- La integración lleva a cabo las comprobaciones y ajustes necesarios en las tablas de Amazon Redshift para los cambios de esquema replicados. Por ejemplo, si agrega una columna en Aurora, se agregará la columna en Amazon Redshift.
- La replicación y los cambios del esquema se producen automáticamente en tiempo real con un retraso mínimo entre las bases de datos de origen y de destino.
- La coherencia del esquema se mantiene incluso cuando los cambios en el DML se producen en paralelo a los cambios en el DDL.
¿Cómo ejecuto transformaciones en mis datos mediante la integración sin ETL?
Puede crear vistas materializadas en su base de datos local de Amazon Redshift para transformar los datos replicados mediante la integración sin ETL. Conéctese a la base de datos local y utilice consultas entre bases de datos para acceder a las bases de datos de destino. Puede utilizar nombres de objetos totalmente cualificados con notación en tres partes (destination-database-name.schema-name.table-name) o crear un esquema externo que haga referencia a la base de datos de destino y al par de esquemas y utilizar una notación en dos partes (external-schema-name.table-name).
Copia de seguridad y restauración
¿Cómo respalda Amazon Redshift los datos en copias de seguridad? ¿Cómo recupero un clúster a partir de una copia de seguridad?
Los clústeres RA3 de Amazon Redshift y Amazon Redshift sin servidor utilizan el almacenamiento administrado de Redshift, que siempre tiene la copia más reciente disponible de los datos. Los clústeres DS2 y DC2 reflejan los datos en el clúster para garantizar que la copia más reciente esté disponible en el caso de producirse un error. Las copias de seguridad se crean automáticamente en todos los tipos de clústeres de Redshift y se retienen por 24 horas; y en los puntos de recuperación sin servidor, se proporcionan por las últimas 24 horas.
También puede crear sus propias copias de seguridad que se pueden retener de forma indefinida. Estas copias de seguridad se pueden crear en cualquier momento y las copias de seguridad automatizadas de Amazon Redshift o los puntos de recuperación de Amazon Redshift sin servidor se pueden convertir en copias de seguridad de usuarios para poder retenerlas por más tiempo.
Amazon Redshift también puede replicar de forma asíncrona las instantáneas o los puntos de recuperación en Amazon S3 en otra región para casos de recuperación de desastres.
En un clúster DS2 o DC2, el límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacenamiento de datos y solo se aplica a los clústeres de almacenamiento de datos activos.
Por ejemplo, si el almacenamiento de datos tiene una capacidad total de almacenamiento de 8 TB, proporcionaremos, como máximo, 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea extender el periodo de retención de copias de seguridad por más de un día, puede hacerlo a través de la Consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información acerca de las instantáneas automatizadas, consulte la Guía de administración de Amazon Redshift.
Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad. Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del periodo de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacenamiento de datos y restableceremos los datos en él.
¿Cómo puedo administrar la retención de las copias de seguridad y las instantáneas automatizadas?
Puede usar la Consola de administración de AWS o la API de ModifyCluster para administrar el período de retención de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede configurar el período de retención en 0 (no se recomienda).
¿Qué sucede con mis copias de seguridad si elimino el clúster de almacenamiento de datos?
Cuando elimina un clúster de almacenamiento de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fecha posterior. Todas las instantáneas del clúster de almacenamiento de datos que se crearon previamente de forma manual se retendrán y facturarán conforme a las tasas estándar de Amazon S3, a menos que usted decida eliminarlas.
Supervisión y mantenimiento
¿Cómo puedo monitorizar el rendimiento del clúster de mi almacenamiento de datos de Amazon Redshift?
Las métricas de uso de computación y de almacenamiento, y tráfico de lectura/escritura del clúster de almacenamiento de datos de Amazon Redshift están disponibles de forma gratuita en la Consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. La consola de administración de AWS ofrece un panel de supervisión que lo ayuda a controlar el estado y el rendimiento de todos los clústeres. Amazon Redshift ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema para diagnosticar problemas de rendimiento mediante la visualización de planes de consultas y estadísticas de ejecuciones. Además, puede ver la utilización de recursos de cada nodo informático para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.
¿Qué es una ventana de mantenimiento? ¿El clúster de almacenamiento de datos estará disponible durante el mantenimiento del software?
Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y las programaciones de mantenimiento por región, consulte Períodos de mantenimiento en la guía de administración de Amazon Redshift.