Configuración de instalación
HeatWave | Base de datos MySQL | AWS Redshift | AWS Aurora | |
Forma de instancia | E3 | E3 | Dc2.8xlarge | db.r5.24xlarge |
Tamaño de cluster | 10 + 1 MDS | 1 | 4 | 1 |
1. Configuración común
- La carga de trabajo se deriva del punto de referencia TPC-H de TPC *
- Genere datos TPC-H utilizando la herramienta de generación de datos TPC-H
- Aprovisionar y configurar el servicio de destino
- Cree un esquema TPC-H en la instancia de servicio de destino
- Importar datos de TPC-H generados a la instancia de servicio de destino
- Ejecute consultas derivadas de TPC-H para probar el rendimiento
- Para obtener los mejores números de rendimiento, siempre realice varias ejecuciones de la consulta e ignore la primera ejecución (en frío)
- Siempre puede hacer un plan explicativo para asegurarse de obtener el mejor plan esperado
2. Configuración específica de HeatWave
- Utilice codificaciones óptimas para las columnas que se cargarán en HeatWave. 5 de las columnas de cadena en el esquema TPC-H están codificadas en VARLEN mientras que otras están codificadas en DICCIONARIO
- Utilice la ubicación de datos personalizada para las tablas que se cargarán en HeatWave. Para la tabla LINEITEM, l_orderkey se utiliza como clave de ubicación de datos. Para las otras tablas, las claves primarias se utilizan como clave de ubicación de datos.
- Marque las tablas como descargables y cárguelas en HeatWave
- Para cada consulta, fuerce la descarga a HeatWave usando la sugerencia (set_var (use_secondary_engine = force))
- Se requiere una sugerencia de straight_join para ciertas consultas a fin de obtener el plan de consulta óptimo para HeatWave
- Referencia HeatWave GitHub para detalles de configuración específicos
3. Configuración específica de la base de datos MySQL
- Utilice un tamaño innodb_buffer_pool suficientemente grande (por ejemplo, 450G para una DRAM de 512G)
- Ajuste innodb_sort_buffer_size, max_heap_table_size, tmp_table_size
- Asegúrese de que las tablas más grandes están particionadas para una carga más rápida
- Se puede usar una sugerencia de straight_join si el plan de consulta parece subóptimo
4. Configuración específica de AWS Redshift
- Determine la mejor forma y tamaño de grupo para los experimentos (en nuestros experimentos, obtuvimos los mejores resultados cuando teníamos 1 TB de datos sin comprimir por nodo dc2.8xlarge)
- Para una ingesta eficiente, siga las pautas para el enrutamiento de VPC mejorado
- Utilice los parámetros predeterminados como se especifica en la documentación de Amazon.
- Asegúrese de que las claves de clasificación y las claves de distribución de cada tabla sean óptimas para las consultas.
- Utilice los scripts proporcionados por awslabs
5. Configuración específica de AWS Aurora
- Utilice la forma más grande posible para que la mayor cantidad de datos quepa en la memoria caché del búfer como sea posible
- Para los conjuntos de datos TPC-H de 1TB y 4TB, use las formas db.r5.24xlarge
- Establezca el tamaño de innodb_buffer_pool en 630G
- Otras configuraciones que se modificaron de su valor predeterminado en nuestros experimentos (innodb_max_purge_lag = 1000000; innodb_max_purge_lag_delay = 300000; innodb_sort_buffer_size = 67108864; lock_wait_timeout = 86400; max_binlog_cache_size = 4294967296; max_binlog_cache_size = 4294967296_ 1015size10792;
- Establezca aurora_disable_hash_join = 0 y aurora_parallel_query = ON para usar consultas en paralelo
- Siga las mejores prácticas para la configuración de la base de datos Aurora para cualquier otro ajuste
- Para que la consulta en paralelo funcione, asegúrese de que ninguna de las tablas esté particionada
- Se puede usar una sugerencia de straight_join si el plan de consulta parece subóptimo
HeatWave | AWS Redshift | AWS Aurora | |
Forma de instancia | E3 | Dc2.8xlarge | db.r5.24xlarge |
Tamaño de cluster | 10 + 1 MDS | 4 | 1 |
Resultado de media geográfica | 7,3 segundos | 19,7 segundos | 2,5 horas |
Costo anual | USD $ 37,022 | USD $ 110,560 | USD $ 129,336 |
6. Resultados
TPC-H de 4 TB
HeatWave | Base de datos MySQL | |
Forma de instancia | E3 | E3 |
Tamaño del clúster (esta pequeña configuración es solo para fines de prueba; el mínimo admitido es 2 + 1) | 1 + 1 MDS | 1 |
Resultado de media geográfica | 4,2 segundos | 1700 segundos |
Costo anual | USD $ 6,483 | USD $ 3,386 |
Descargo de responsabilidad: las consultas de referencia se derivan de la referencia de TPC-H, pero los resultados no son comparables a los resultados de referencia de TPC-H publicados, ya que no cumplen con la especificación TPC-H.
Si te interesa saber más sobre estos temas, además de que tu empresa o negocio requiere de una base de datos de las antes mencionadas, o alguna otra necesidad, ¡no lo pienses más y recurre al equipo de especialistas de ROOTHEIM!
Para más información comunícate con nosotros dando clic a los siguientes iconos:
Referencia:
https://www.oracle.com/mx/mysql/heatwave/performance/
Copiar URL