数据库

与大多数企业应用样式一样，数据库是批处理的中心存储机制。然而，批处理与其他应用样式不同，因为它必须处理的数据集规模庞大。如果一个 SQL 语句返回 100 万行，结果集可能会将所有返回的结果保存在内存中，直到所有行都被读取。Spring Batch 为此问题提供了两种解决方案：

基于游标的 ItemReader 实现
分页 ItemReader 实现

基于游标的 `ItemReader` 实现

使用数据库游标通常是大多数批处理开发人员的默认方法，因为它是数据库解决“流式传输”关系数据问题的方法。Java 的 ResultSet 类本质上是一种用于操作游标的面向对象机制。ResultSet 维护一个指向当前数据行的游标。调用 ResultSet 上的 next 会将此游标移动到下一行。Spring Batch 基于游标的 ItemReader 实现会在初始化时打开一个游标，并在每次调用 read 时将游标向前移动一行，返回一个可用于处理的映射对象。然后调用 close 方法以确保所有资源都被释放。Spring Core 的 JdbcTemplate 通过使用回调模式完全映射 ResultSet 中的所有行并在将控制权返回给方法调用者之前关闭来解决此问题。然而，在批处理中，这必须等到步骤完成。下图显示了基于游标的 ItemReader 如何工作的通用图表。请注意，虽然示例使用 SQL（因为 SQL 广为人知），但任何技术都可以实现基本方法。

图 1. 游标示例

此示例说明了基本模式。给定一个具有三列的“FOO”表：ID、NAME 和 BAR，选择 ID 大于 1 但小于 7 的所有行。这将游标的开头（第 1 行）放在 ID 2 上。此行的结果应该是一个完全映射的 Foo 对象。再次调用 read() 会将游标移动到下一行，即 ID 为 3 的 Foo。这些读取的结果在每次 read 之后写入，允许对象进行垃圾回收（假设没有实例变量维护对它们的引用）。

`JdbcCursorItemReader`

JdbcCursorItemReader 是基于游标技术的 JDBC 实现。它直接与 ResultSet 一起工作，并且需要一个 SQL 语句来对从 DataSource 获取的连接运行。以下数据库 schema 用作示例

CREATE TABLE CUSTOMER (
   ID BIGINT IDENTITY PRIMARY KEY,
   NAME VARCHAR(45),
   CREDIT FLOAT
);

许多人喜欢为每一行使用一个领域对象，因此以下示例使用 RowMapper 接口的实现来映射 CustomerCredit 对象

public class CustomerCreditRowMapper implements RowMapper<CustomerCredit> {

    public static final String ID_COLUMN = "id";
    public static final String NAME_COLUMN = "name";
    public static final String CREDIT_COLUMN = "credit";

    public CustomerCredit mapRow(ResultSet rs, int rowNum) throws SQLException {
        CustomerCredit customerCredit = new CustomerCredit();

        customerCredit.setId(rs.getInt(ID_COLUMN));
        customerCredit.setName(rs.getString(NAME_COLUMN));
        customerCredit.setCredit(rs.getBigDecimal(CREDIT_COLUMN));

        return customerCredit;
    }
}

因为 JdbcCursorItemReader 与 JdbcTemplate 共享关键接口，所以查看如何使用 JdbcTemplate 读取此数据的示例很有用，以便与 ItemReader 进行对比。为了本示例的目的，假设 CUSTOMER 数据库中有 1,000 行。第一个示例使用 JdbcTemplate

//For simplicity sake, assume a dataSource has already been obtained
JdbcTemplate jdbcTemplate = new JdbcTemplate(dataSource);
List customerCredits = jdbcTemplate.query("SELECT ID, NAME, CREDIT from CUSTOMER",
                                          new CustomerCreditRowMapper());

运行完前面的代码片段后，customerCredits 列表包含 1,000 个 CustomerCredit 对象。在查询方法中，从 DataSource 获取连接，对它运行提供的 SQL，并为 ResultSet 中的每一行调用 mapRow 方法。将其与 JdbcCursorItemReader 的方法进行对比，如以下示例所示

JdbcCursorItemReader itemReader = new JdbcCursorItemReader();
itemReader.setDataSource(dataSource);
itemReader.setSql("SELECT ID, NAME, CREDIT from CUSTOMER");
itemReader.setRowMapper(new CustomerCreditRowMapper());
int counter = 0;
ExecutionContext executionContext = new ExecutionContext();
itemReader.open(executionContext);
Object customerCredit = new Object();
while(customerCredit != null){
    customerCredit = itemReader.read();
    counter++;
}
itemReader.close();

运行上述代码片段后，计数器等于 1,000。如果上述代码将返回的 customerCredit 放入列表中，结果将与 JdbcTemplate 示例完全相同。但是，ItemReader 的最大优点是它允许“流式传输”项。read 方法可以调用一次，项可以由 ItemWriter 写出，然后可以通过 read 获取下一个项。这允许以“块”的方式完成项的读取和写入并定期提交，这是高性能批处理的精髓。此外，它可以轻松配置以注入 Spring Batch Step。

Java
XML

以下示例展示了如何在 Java 中将 ItemReader 注入到 Step 中

Java 配置

@Bean
public JdbcCursorItemReader<CustomerCredit> itemReader() {
	return new JdbcCursorItemReaderBuilder<CustomerCredit>()
			.dataSource(this.dataSource)
			.name("creditReader")
			.sql("select ID, NAME, CREDIT from CUSTOMER")
			.rowMapper(new CustomerCreditRowMapper())
			.build();

}

以下示例展示了如何在 XML 中将 ItemReader 注入到 Step 中

XML 配置

<bean id="itemReader" class="org.spr...JdbcCursorItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="sql" value="select ID, NAME, CREDIT from CUSTOMER"/>
    <property name="rowMapper">
        <bean class="org.springframework.batch.samples.domain.CustomerCreditRowMapper"/>
    </property>
</bean>

附加属性

由于在 Java 中打开游标的选项很多，因此 JdbcCursorItemReader 上可以设置许多属性，如以下表格所述

表 1. JdbcCursorItemReader 属性
ignoreWarnings	确定是否记录 SQL 警告或引发异常。默认值为 `true`（表示记录警告）。
fetchSize	向 JDBC 驱动程序提供一个提示，指示当 `ItemReader` 使用的 `ResultSet` 对象需要更多行时，应从数据库中获取的行数。默认情况下，不提供任何提示。
maxRows	设置底层 `ResultSet` 在任何给定时间可以容纳的最大行数。
queryTimeout	设置驱动程序等待 `Statement` 对象运行的秒数。如果超出限制，则会抛出 `DataAccessException`。（有关详细信息，请查阅您的驱动程序供应商文档）。
verifyCursorPosition	由于 `ItemReader` 持有的相同 `ResultSet` 被传递给 `RowMapper`，因此用户可能会自己调用 `ResultSet.next()`，这可能会导致读取器的内部计数出现问题。将此值设置为 `true` 会导致在 `RowMapper` 调用后游标位置与之前不相同时抛出异常。
saveState	指示读取器的状态是否应保存在 `ItemStream#update(ExecutionContext)` 提供的 `ExecutionContext` 中。默认值为 `true`。
driverSupportsAbsolute	指示 JDBC 驱动程序是否支持在 `ResultSet` 上设置绝对行。建议将支持 `ResultSet.absolute()` 的 JDBC 驱动程序设置为 `true`，因为这可能会提高性能，尤其是在处理大型数据集时步骤失败的情况下。默认为 `false`。
setUseSharedExtendedConnection	指示游标使用的连接是否应由所有其他处理使用，从而共享相同的事务。如果将其设置为 `false`，则游标将使用自己的连接打开，并且不参与为其余步骤处理启动的任何事务。如果将此标志设置为 `true`，则必须将 DataSource 包装在 `ExtendedConnectionDataSourceProxy` 中，以防止连接在每次提交后关闭和释放。当将此选项设置为 `true` 时，用于打开游标的语句将使用“READ_ONLY”和“HOLD_CURSORS_OVER_COMMIT”选项创建。这允许在事务开始和步骤处理中执行的提交期间保持游标打开。要使用此功能，需要支持此功能的数据库和支持 JDBC 3.0 或更高版本的 JDBC 驱动程序。默认为 `false`。

`StoredProcedureItemReader`

有时需要通过使用存储过程来获取游标数据。StoredProcedureItemReader 的工作方式与 JdbcCursorItemReader 类似，不同之处在于，它不是运行查询来获取游标，而是运行返回游标的存储过程。存储过程可以通过三种不同的方式返回游标

作为返回的 ResultSet（由 SQL Server、Sybase、DB2、Derby 和 MySQL 使用）。
作为作为输出参数返回的 ref-cursor（由 Oracle 和 PostgreSQL 使用）。
作为存储函数调用的返回值。

Java
XML

以下 Java 示例配置使用与早期示例相同的“客户信用”示例

Java 配置

@Bean
public StoredProcedureItemReader reader(DataSource dataSource) {
	StoredProcedureItemReader reader = new StoredProcedureItemReader();

	reader.setDataSource(dataSource);
	reader.setProcedureName("sp_customer_credit");
	reader.setRowMapper(new CustomerCreditRowMapper());

	return reader;
}

以下 XML 示例配置使用与早期示例相同的“客户信用”示例

XML 配置

<bean id="reader" class="o.s.batch.item.database.StoredProcedureItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="procedureName" value="sp_customer_credit"/>
    <property name="rowMapper">
        <bean class="org.springframework.batch.samples.domain.CustomerCreditRowMapper"/>
    </property>
</bean>

前面的示例依赖存储过程提供 ResultSet 作为返回结果（前面选项 1）。

如果存储过程返回 ref-cursor（选项 2），那么我们需要提供作为返回 ref-cursor 的输出参数的位置。

Java
XML

以下示例展示了如何在 Java 中处理第一个参数是 ref-cursor 的情况

Java 配置

@Bean
public StoredProcedureItemReader reader(DataSource dataSource) {
	StoredProcedureItemReader reader = new StoredProcedureItemReader();

	reader.setDataSource(dataSource);
	reader.setProcedureName("sp_customer_credit");
	reader.setRowMapper(new CustomerCreditRowMapper());
	reader.setRefCursorPosition(1);

	return reader;
}

以下示例展示了如何在 XML 中处理第一个参数是 ref-cursor 的情况

XML 配置

<bean id="reader" class="o.s.batch.item.database.StoredProcedureItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="procedureName" value="sp_customer_credit"/>
    <property name="refCursorPosition" value="1"/>
    <property name="rowMapper">
        <bean class="org.springframework.batch.samples.domain.CustomerCreditRowMapper"/>
    </property>
</bean>

如果游标是从存储函数（选项 3）返回的，我们需要将属性“function”设置为 true。它默认为 false。

Java
XML

以下示例展示了在 Java 中将属性设置为 true

Java 配置

@Bean
public StoredProcedureItemReader reader(DataSource dataSource) {
	StoredProcedureItemReader reader = new StoredProcedureItemReader();

	reader.setDataSource(dataSource);
	reader.setProcedureName("sp_customer_credit");
	reader.setRowMapper(new CustomerCreditRowMapper());
	reader.setFunction(true);

	return reader;
}

以下示例展示了在 XML 中将属性设置为 true

XML 配置

<bean id="reader" class="o.s.batch.item.database.StoredProcedureItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="procedureName" value="sp_customer_credit"/>
    <property name="function" value="true"/>
    <property name="rowMapper">
        <bean class="org.springframework.batch.samples.domain.CustomerCreditRowMapper"/>
    </property>
</bean>

在所有这些情况下，我们都需要定义一个 RowMapper 以及一个 DataSource 和实际的存储过程名称。

如果存储过程或函数带有参数，那么必须使用 parameters 属性声明并设置它们。以下示例（针对 Oracle）声明了三个参数。第一个是返回 ref-cursor 的 out 参数，第二个和第三个是接受 INTEGER 类型值的输入参数。

Java
XML

以下示例展示了如何在 Java 中使用参数

Java 配置

@Bean
public StoredProcedureItemReader reader(DataSource dataSource) {
	List<SqlParameter> parameters = new ArrayList<>();
	parameters.add(new SqlOutParameter("newId", OracleTypes.CURSOR));
	parameters.add(new SqlParameter("amount", Types.INTEGER);
	parameters.add(new SqlParameter("custId", Types.INTEGER);

	StoredProcedureItemReader reader = new StoredProcedureItemReader();

	reader.setDataSource(dataSource);
	reader.setProcedureName("spring.cursor_func");
	reader.setParameters(parameters);
	reader.setRefCursorPosition(1);
	reader.setRowMapper(rowMapper());
	reader.setPreparedStatementSetter(parameterSetter());

	return reader;
}

以下示例展示了如何在 XML 中使用参数

XML 配置

<bean id="reader" class="o.s.batch.item.database.StoredProcedureItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="procedureName" value="spring.cursor_func"/>
    <property name="parameters">
        <list>
            <bean class="org.springframework.jdbc.core.SqlOutParameter">
                <constructor-arg index="0" value="newid"/>
                <constructor-arg index="1">
                    <util:constant static-field="oracle.jdbc.OracleTypes.CURSOR"/>
                </constructor-arg>
            </bean>
            <bean class="org.springframework.jdbc.core.SqlParameter">
                <constructor-arg index="0" value="amount"/>
                <constructor-arg index="1">
                    <util:constant static-field="java.sql.Types.INTEGER"/>
                </constructor-arg>
            </bean>
            <bean class="org.springframework.jdbc.core.SqlParameter">
                <constructor-arg index="0" value="custid"/>
                <constructor-arg index="1">
                    <util:constant static-field="java.sql.Types.INTEGER"/>
                </constructor-arg>
            </bean>
        </list>
    </property>
    <property name="refCursorPosition" value="1"/>
    <property name="rowMapper" ref="rowMapper"/>
    <property name="preparedStatementSetter" ref="parameterSetter"/>
</bean>

除了参数声明之外，我们还需要指定一个 PreparedStatementSetter 实现来设置调用的参数值。这与上面的 JdbcCursorItemReader 相同。附加属性中列出的所有附加属性也适用于 StoredProcedureItemReader。

分页 `ItemReader` 实现

使用数据库游标的另一种方法是运行多个查询，每个查询都获取部分结果。我们将此部分称为页。每个查询都必须指定起始行号以及我们希望在页中返回的行数。

`JdbcPagingItemReader`

分页 ItemReader 的一个实现是 JdbcPagingItemReader。JdbcPagingItemReader 需要一个 PagingQueryProvider，该提供程序负责提供用于检索构成页的行的 SQL 查询。由于每个数据库都有自己提供分页支持的策略，因此我们需要为每种支持的数据库类型使用不同的 PagingQueryProvider。还有一个 SqlPagingQueryProviderFactoryBean，它可以自动检测正在使用的数据库并确定适当的 PagingQueryProvider 实现。这简化了配置，并且是推荐的最佳实践。

SqlPagingQueryProviderFactoryBean 要求您指定一个 select 子句和一个 from 子句。您还可以提供一个可选的 where 子句。这些子句和必需的 sortKey 用于构建 SQL 语句。

在 sortKey 上具有唯一键约束很重要，以确保在执行之间不会丢失任何数据。

读取器打开后，它会以与任何其他 ItemReader 相同的基本方式，在每次调用 read 时返回一个项。当需要额外的行时，分页会在幕后发生。

Java
XML

以下 Java 示例配置使用了与前面显示的基于游标的 ItemReaders 类似的“客户信用”示例

Java 配置

@Bean
public JdbcPagingItemReader itemReader(DataSource dataSource, PagingQueryProvider queryProvider) {
	Map<String, Object> parameterValues = new HashMap<>();
	parameterValues.put("status", "NEW");

	return new JdbcPagingItemReaderBuilder<CustomerCredit>()
           				.name("creditReader")
           				.dataSource(dataSource)
           				.queryProvider(queryProvider)
           				.parameterValues(parameterValues)
           				.rowMapper(customerCreditMapper())
           				.pageSize(1000)
           				.build();
}

@Bean
public SqlPagingQueryProviderFactoryBean queryProvider() {
	SqlPagingQueryProviderFactoryBean provider = new SqlPagingQueryProviderFactoryBean();

	provider.setSelectClause("select id, name, credit");
	provider.setFromClause("from customer");
	provider.setWhereClause("where status=:status");
	provider.setSortKey("id");

	return provider;
}

以下 XML 示例配置使用了与前面显示的基于游标的 ItemReaders 类似的“客户信用”示例

XML 配置

<bean id="itemReader" class="org.spr...JdbcPagingItemReader">
    <property name="dataSource" ref="dataSource"/>
    <property name="queryProvider">
        <bean class="org.spr...SqlPagingQueryProviderFactoryBean">
            <property name="selectClause" value="select id, name, credit"/>
            <property name="fromClause" value="from customer"/>
            <property name="whereClause" value="where status=:status"/>
            <property name="sortKey" value="id"/>
        </bean>
    </property>
    <property name="parameterValues">
        <map>
            <entry key="status" value="NEW"/>
        </map>
    </property>
    <property name="pageSize" value="1000"/>
    <property name="rowMapper" ref="customerMapper"/>
</bean>

此配置的 ItemReader 使用必须指定的 RowMapper 返回 CustomerCredit 对象。'pageSize' 属性确定每次查询运行从数据库读取的实体数量。

'parameterValues' 属性可用于为查询指定参数值的 Map。如果在 where 子句中使用命名参数，则每个条目的键应与命名参数的名称匹配。如果使用传统的“?”占位符，则每个条目的键应为占位符的编号，从 1 开始。

`JpaPagingItemReader`

分页 ItemReader 的另一个实现是 JpaPagingItemReader。JPA 没有类似于 Hibernate StatelessSession 的概念，因此我们必须使用 JPA 规范提供的其他功能。由于 JPA 支持分页，因此在将 JPA 用于批处理时，这是一个自然的选择。每次读取页面后，实体都会分离，并清除持久化上下文，以允许实体在处理页面后进行垃圾回收。

JpaPagingItemReader 允许您声明一个 JPQL 语句并传入一个 EntityManagerFactory。然后，它会以与任何其他 ItemReader 相同的基本方式，在每次调用 read 时返回一个项。当需要额外的实体时，分页会在幕后发生。

Java
XML

以下 Java 示例配置使用与前面显示的 JDBC 读取器相同的“客户信用”示例

Java 配置

@Bean
public JpaPagingItemReader itemReader() {
	return new JpaPagingItemReaderBuilder<CustomerCredit>()
           				.name("creditReader")
           				.entityManagerFactory(entityManagerFactory())
           				.queryString("select c from CustomerCredit c")
           				.pageSize(1000)
           				.build();
}

以下 XML 示例配置使用与前面显示的 JDBC 读取器相同的“客户信用”示例

XML 配置

<bean id="itemReader" class="org.spr...JpaPagingItemReader">
    <property name="entityManagerFactory" ref="entityManagerFactory"/>
    <property name="queryString" value="select c from CustomerCredit c"/>
    <property name="pageSize" value="1000"/>
</bean>

此配置的 ItemReader 以与上述 JdbcPagingItemReader 所述的完全相同的方式返回 CustomerCredit 对象，前提是 CustomerCredit 对象具有正确的 JPA 注解或 ORM 映射文件。'pageSize' 属性确定每次查询执行从数据库读取的实体数量。

数据库 ItemWriters

虽然平面文件和 XML 文件都有特定的 ItemWriter 实例，但在数据库世界中没有完全等效的实例。这是因为事务提供了所有需要的功能。ItemWriter 实现对于文件是必需的，因为它们必须像事务一样工作，跟踪写入的项并在适当的时候刷新或清除。数据库不需要此功能，因为写入已包含在事务中。用户可以创建自己的实现 ItemWriter 接口的 DAO，或者使用为通用处理问题编写的自定义 ItemWriter 中的一个。无论哪种方式，它们都应该工作而不会出现任何问题。需要注意的一点是批处理输出所提供的性能和错误处理能力。这在使用 Hibernate 作为 ItemWriter 时最常见，但在使用 JDBC 批处理模式时也可能存在相同的问题。批处理数据库输出本身没有任何固有的缺陷，前提是我们仔细刷新并且数据中没有错误。但是，写入时发生的任何错误都可能导致混淆，因为无法知道哪个单个项导致了异常，甚至无法知道是否有任何单个项负责，如下图所示

图 2. 刷新时出错

如果在写入之前缓冲了项，则在提交之前刷新缓冲区之前不会抛出任何错误。例如，假设每个块写入 20 个项，并且第 15 个项抛出 DataIntegrityViolationException。就 Step 而言，所有 20 个项都成功写入，因为在实际写入之前无法知道是否发生错误。一旦调用 Session#flush()，缓冲区就会清空并触发异常。此时，Step 无能为力。事务必须回滚。通常，此异常可能会导致项被跳过（取决于跳过/重试策略），然后不再写入。但是，在批处理场景中，无法知道哪个项导致了问题。发生故障时正在写入整个缓冲区。解决此问题的唯一方法是在每个项之后刷新，如下图所示

图 3. 写入时出错

这是一个常见的用例，尤其是在使用 Hibernate 时，ItemWriter 实现的简单指南是在每次调用 write() 时刷新。这样做可以可靠地跳过项，Spring Batch 会在出错后内部处理对 ItemWriter 调用的粒度。

数据库

基于游标的 ItemReader 实现

JdbcCursorItemReader

附加属性

StoredProcedureItemReader

分页 ItemReader 实现

JdbcPagingItemReader

JpaPagingItemReader

数据库 ItemWriters

基于游标的 `ItemReader` 实现

`JdbcCursorItemReader`

`StoredProcedureItemReader`

分页 `ItemReader` 实现

`JdbcPagingItemReader`

`JpaPagingItemReader`