当前位置：首页 > news >正文

AWS Redshift的使用场景及一些常见问题

news 来源：原创 2025/4/24 21:04:42

Redshift 不是关系型数据库, 提供了Amazon Redshift Serverless 和 Amazon Redshift 都是构建于 Redshift 数仓引擎之上的，但它们适用的场景不同。Redshift和Dynamodb都可以存储数据, 分别怎么选择? 这里记录一些常见的问题和场景。

1. 如何选择用Amazon Redshift Serverless 和 Amazon Redshift?

Amazon Redshift Serverless：无需管理集群，按需计费，弹性自动扩展。适合不确定负载或数据团队初期, 按照查询时使用的 RPU（Redshift Processing Unit）计费，适合不可预测的工作负载。

Amazon Redshift（传统集群）：适合稳定、长期的大数据仓库，拥有持续负载、对成本控制更精细的团队, 按节点计费，可使用预留实例降低成本，适合固定工作负载, 按节点计费，可使用预留实例降低成本，适合固定工作负载。

维度	Redshift Serverless	Redshift（集群）
部署管理	无需管理节点，AWS 自动处理资源	需要用户自己部署节点和集群
计费模式	按查询消耗的“RPU”资源计费（弹性）	按节点数+小时计费（固定）
适合场景	负载波动大，查询不频繁；无需 DBA	工作负载稳定，查询频繁，性价比高
启动速度	快速（即开即用）	有启动延迟，需要冷启动时间
弹性扩展	自动，无需配置	手动扩容或设置自动扩缩容
成本控制	适合短时轻量查询，不用时不收费	对长期高密度负载更划算

2. redshift设置了id为PRIMARY KEY,入库仍然有重复id,唯一键不生效,有没有其他方式可以设置数据行不重复.

本身没有唯一主键约束(性能决定), 推荐: 编辑MERGE - Amazon Redshift
(1)写入时判断然后merge

(2)缓存到中间表, 再merge到目标表(因为received有一个有个SQL的语句叫merge,如果它发现有重复记录，它就会做update，如果它发现是新的记录没有重复的,它就直接append也就是insert),和关系型数据库不一样, 因为关系数据库，它本质上背后它是有个主键索引,而redshift没有索引,它偏向于分析型场景.

3. 表数据大查询慢，怎么优化, 支持索引吗? 支持的话,推荐使用哪种索引方式,如何设置,如果有数据删除的话,表的索引会自动更新吗?

没有索引，更合适是sortkey这个功能, 推荐: VACUUM - Amazon Redshift

查看搜索键排序: select * from svv_table_info order by size desc;

数据量小，性能要求高可以走集群 → 费用会增长，暂时不需要考虑切换

4. 多个进程同时往一个表里批量写数据,会导致数据丢失,或者表被锁之类的问题吗?

没有行锁，只有表锁, 还是推荐缓存表再merge更快

5. redshift 可以创建关联表吗?可以创建视图吗?如何创建?

视图和物化视图(预计算，可配置自动，手动，增量/全量等)都可以编辑自动实体化视图 - Amazon Redshift

6. Serverless 的 Total used storage是怎么计算的, 比实际的数据大很多(实际数据2G的时候,显示58G, 实际数据大概20G,显示154.7 GB)

Serverless 默认128个分片，每个分片有个最小容量，无法调整分片数量, 所以会自动伸展到合适的空间. 集群方式, 是可以根据业务量自定义分片数量的.

7. redshift和dynamodb性能和收费上都有什么区别?

(1) redshift - 数据分析