分库分表

1. 拆分方式

垂直拆分：按不同业务拆成多个库
水平拆分：相同业务的库再拆分成多个库或表，如按用户ID或订单ID拆分。

拆分之后再连接数据库的方式：Client或Proxy
Client: 性能好，连接数多一点，不依赖中间服务不会出现单点故障，但每个项目都得依赖一个jar包，这使得大公司项目稳定后推进升级过程缓慢。
Proxy: 性能有损耗，会依赖中间服务，同时这个服务还得做高可用，架构变复杂了，但好处是业务方无感知，升级方便。
Client方式代表框架：ShardingJDBC

2. 垂直拆分多个库后多数据源接入

给每个库配置一个MybatisConfiguration，每个配置类里会设置好对应的所有mapper.xml，再使用如OrderMapper时就会使用订单库的数据源，使用StoreMapper就会使用店铺的数据源。

@MapperScan(sqlSessionFactoryRef = "sqlSessionFactoryOrder", basePackages = {"jiagoubaiduren.mapper.order"})
@Configuration
public class OrderMybatisAutoConfiguration {
	...
	private final String[] MAPPER_XML_PATH = new String[] {"classpath*:ordermapper/*.xml"};
	
	@Bean(name = "sqlSessionFactoryOrder")
	@Primary
	public SqlSessionFactory sqlSessionFactoryOrder() throws Exception {
	    SqlSessionFactoryBean factory = new SqlSessionFactoryBean();
	    factory.setDataSource(dataSourceOrder());
	    factory.setVfs(SpringBootVFS.class);
	    factory.setMapperLocations(resolveMapperLocations());
	    return factory.getObject();
	}
	public Resource[] resolveMapperLocations() {
	  return Stream.of(Optional.ofNullable(MAPPER_XML_PATH).orElse(new String[0]))
	            .flatMap(location -> Stream.of(getResources(location))).toArray(Resource[]::new);
	}
	...
}

3. 读写分离

问题1：上读写分离之后要考虑主从同步的延迟问题，原先刚写入的订单信息马上读详情肯定是没问题的，但现在读详情不一定能读取到，因为读走从库了而从库可能还没同步完成。
解决：
1. 把这些有影响的业务梳理出来，某些场景下强制走主库，如查详情就强制走主库，查订单列表就走从库。
2. 通用的解决方式：插入一个订单，同时往redis插入一条缓存，过期时间必须大于你的主从同步延迟时间。在订单详情查询的接口中，先判断有没有缓存，如果有缓存，那说明这个数据是刚刚插入的，还没同步到从库中，这个时候就直接查master。如果没缓存，那就证明数据同步过来了，查slave。

问题2：如何让老业务无感知，上读写分离后旧代码先不用动，再慢慢梳理业务慢慢改。
解决：用ShardingJDBC，定义一个拦截所有dao的切面，让其默认都走主库，再定义一个走从库的注解，只有指定了这个注解才走从库。

4. 分片算法选择

1. 按时间
适合查询场景只查最新的
2. 按范围
适合数字类型字段进行分表，一般像自增的主键ID
3. 取模
用的多，如userId % 10 = 数据在第几个表

5. 按某字段分库分表后如何满足多维度的查询

如根据用户id分之后，买家端好查询，卖家端呢，卖家要查自己店铺下的订单该怎么查，一个店铺下对应很多个userId，这数据就可能分布在多个表里。
1. 买家端的复杂查询：用二级索引
用ES来构建这个二级索引，性能好，支持sharding，适合存储大量数据。数据同步用binlog或双写。
2. 查订单：让订单号的后四位为用户id的后四位，同时分库分表也是按用户id后四位来分，这样可以让按订单查询时变得简单，直接取后四位就知道是哪个表了。
3. 卖家端查询：空间换时间，多存储一份数据，用binlog同步数据时按店铺id分库分表存储，淘宝也是这么做的。

6. 不停机上线分库分表，无缝迁移数据

主要有两种迁移方式：
1. 双写模式，侵入式的，要改代码。

1. 先把双写代码上线，这时新数据会写到新老库里
2. 老数据同步到新库，因为修改老库时可能新库还没有那条数据而导致修改失败，所以同步完后再把新老库数据对比一遍，如有不同则用老库数据覆盖，至此新老库数据就完全一样了。
3. 再把读写操作切换到新库

2. 用程序消费binlog同步新数据，旧数据还得跟上面一样单独用脚本做同步。

以上总结主要来自B站一位UP

/Volumes/D/code/java/order-sharding-samples
架构摆渡人-Sharding Sphere，Sharding JDBC-真实订单业务，亿级数据带你实战分库分表

2023/12/01 22:45