如何处理来自 S3 的大文件并在 Spring Batch 中使用它

2024-04-10

我有一个 CSV 文件，其中包含数百万条记录，大小约为 2GB。我的用例是从 S3 读取 CSV 文件并对其进行处理。请在下面找到我的代码：

在下面的代码中，我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中平面文件项读取器 reader.setResource(new InputStreamResource(inputStream));

根据此实现，我在内存中保存 2GB 内容并对其进行处理，这不是一种有效的方法 - 有人可以建议从 S3 存储桶中读取大文件并在 S3 存储桶中处理它的有效方法是什么吗？春季批次。

提前感谢您的帮助！谢谢。

@Component
public class GetFileFromS3 {

    public S3ObjectInputStream dowloadFile(String keyName, String bucketName, String region) {
        try {
            AmazonS3 s3Client = AmazonS3ClientBuilder.standard().withClientConfiguration(new ClientConfiguration())
                    .withRegion(region).build();

            S3Object s3object = s3Client.getObject(bucketName, keyName);
            return s3object.getObjectContent();
        } catch (AmazonServiceException e) {
            e.printStackTrace();
        }
        return null;
    }

}




public class SpringBatch {

    @Autowired
    private GetFileFromS3 getFileFromS3;


 @Bean(name = "csvFile")
    public Step step1() {
        return stepBuilderFactory.get("step1").<Employee, Employee>chunk(10)
                .reader(reader())
                .processor(processor())
                .writer(writer())
                .build();
    }

    @Bean
    public FlatFileItemReader<Employee> reader() {
        S3ObjectInputStream inputStream = getFileFromS3.dowloadFile("employee.csv", "testBucket", "us-east-1");
        FlatFileItemReader<Employee> reader = new FlatFileItemReader<Employee>();
        reader.setResource(new InputStreamResource(inputStream));
        reader.setLinesToSkip(1);
        reader.setLineMapper(new DefaultLineMapper() {
            {
                setLineTokenizer(new DelimitedLineTokenizer() {
                    {
                        setNames(Employee.fields());
                    }
                });
                setFieldSetMapper(new BeanWrapperFieldSetMapper<Employee>() {
                    {
                        setTargetType(Employee.class);
                    }
                });
            }
        });
        return reader;
    }

    @Bean
    public ItemProcessor<Employee, Employee> processor() {
        return new ItemProcessor();
    }

    @Bean
    public ItemWriter<Employee> writer() {
        return new ItemWriter<Event>();
    }

    }

利用ResourceLoader，我们可以像其他资源一样在ItemReader中读取S3中的文件。这将有助于以块的形式读取 S3 中的文件，而不是将整个文件加载到内存中。

随着依赖注入ResourceLoader and AmazonS3 client，已更改阅读器配置如下：

替换值sourceBucket and sourceObjectPrefix如所须。

@Autowired
private ResourceLoader resourceLoader;

@Autowired
private AmazonS3 amazonS3Client;

// READER
@Bean(destroyMethod="")
@StepScope
public SynchronizedItemStreamReader<Employee> employeeDataReader() {
    SynchronizedItemStreamReader synchronizedItemStreamReader = new SynchronizedItemStreamReader();
    List<Resource> resourceList = new ArrayList<>();
    String sourceBucket = yourBucketName;
    String sourceObjectPrefix = yourSourceObjectPrefix;
    log.info("sourceObjectPrefix::"+sourceObjectPrefix);
    ListObjectsRequest listObjectsRequest = new ListObjectsRequest()
            .withBucketName(sourceBucket)
            .withPrefix(sourceObjectPrefix);
    ObjectListing sourceObjectsListing;
    do{
        sourceObjectsListing = amazonS3Client.listObjects(listObjectsRequest);
        for (S3ObjectSummary sourceFile : sourceObjectsListing.getObjectSummaries()){

            if(!(sourceFile.getSize() > 0)
                    || (!sourceFile.getKey().endsWith(DOT.concat("csv")))
            ){
                // Skip if file is empty (or) file extension is not "csv"
                continue;
            }
            log.info("Reading "+sourceFile.getKey());
            resourceList.add(resourceLoader.getResource("s3://".concat(sourceBucket).concat("/")
                    .concat(sourceFile.getKey())));
        }
        listObjectsRequest.setMarker(sourceObjectsListing.getNextMarker());
    }while(sourceObjectsListing.isTruncated());

    Resource[] resources = resourceList.toArray(new Resource[resourceList.size()]);
    MultiResourceItemReader<Employee> multiResourceItemReader = new MultiResourceItemReader<>();
    multiResourceItemReader.setName("employee-multiResource-Reader");
    multiResourceItemReader.setResources(resources);
    multiResourceItemReader.setDelegate(employeeFileItemReader());
    synchronizedItemStreamReader.setDelegate(multiResourceItemReader);
    return synchronizedItemStreamReader;
}

@Bean
@StepScope
public FlatFileItemReader<Employee> employeeFileItemReader()
{
    FlatFileItemReader<Employee> reader = new FlatFileItemReader<Employee>();
    reader.setLinesToSkip(1);
    reader.setLineMapper(new DefaultLineMapper() {
        {
            setLineTokenizer(new DelimitedLineTokenizer() {
                {
                    setNames(Employee.fields());
                }
            });
            setFieldSetMapper(new BeanWrapperFieldSetMapper<Employee>() {
                {
                    setTargetType(Employee.class);
                }
            });
        }
    });
    return reader;
}

以 MultiResourceItemReader 为例。即使您正在查找的特定 S3 路径中有多个 CSV 文件，这也可以工作。

如果只处理某个位置的一个 CSV 文件，它也可以隐式地使用Resources[] resources包含一个条目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

amazons3

SpringBatch

largedata

largefiles

如何处理来自 S3 的大文件并在 Spring Batch 中使用它的相关文章

如何将 javax.persistence.Column 定义为 Unsigned TINYINT？

我正在基于 MySQL 数据库中的现有表创建 Java 持久性实体 Bean 使用 NetBeans IDE 8 0 1 我在这个表中遇到了一个字段其类型为无符号 TINYINT 3 我发现可以执行以下操作将列的类型定义为 unsign
通过SOCKS代理连接Kafka

我有一个在 AWS 上运行的 Kafka 集群我想用标准连接到集群卡夫卡控制台消费者从我的应用程序服务器应用程序服务器可以通过 SOCKS 代理访问互联网无需身份验证如何告诉 Kafka 客户端通过代理进行连接我尝试了很多事情包
如何在 Firebase 远程配置中从 JSON 获取值

我是 Android 应用开发和 Firebase 的新手我想知道如何获取存储在 Firebase 远程配置中的 JSONArray 文件中的值 String 和 Int 我使用 Firebase Remote Config 的最终目标是
使用 Ant 将非代码资源添加到 jar 文件

我正在将 java 应用程序打包成 jar 文件我正在使用 ant 和 eclipse 我实际上需要在 jar 中直接在根文件夹下包含几个单独的非代码文件 xml 和 txt 文件而不是与代码位于同一位置我正在尝试使用includes
不同类型的数组

是否可以有一个包含两种不同类型数据的数组我想要一个包含双精度型和字符串的数组我尝试过 ArrayList
在 Wildfly 中与 war 部署共享 util jar 文件

假设我有一个名为 util jar 的 jar 文件该 jar 文件主要包含 JPA 实体和一些 util 类无 EJB 如何使这个 jar 可用于 Wildfly 中部署的所有 war 无需将 jar 放置在 war 的 WEB IN
Integer.parseInt("0x1F60A") 以 NumberformatException 结束

我尝试从数据库中获取长字符串内的表情符号代码格式如下 0x1F60A 所以我可以访问代码但它将是String 起初我尝试通过执行以下操作来转换变量tv setText beforeEmo getEmijoByUnicode int e
是否可以使用 Flying Saucer (XHTML-Renderer) 将 css 解析为类路径资源？

我正在尝试将资源打包到 jar 中但我无法让 Flying Saucer 在类路径上找到 css 我无法轻松构建 URL 来无缝解决此问题 https stackoverflow com questions 861500 url to l
大数据使用什么数据结构

我有一个包含一百万行的 Excel 工作表每行有 100 列每行代表一个具有 100 个属性的类的实例列值是这些属性的值哪种数据结构最适合在这里使用来存储数百万个数据实例 Thanks 这实际上取决于您需要如何访问这些数据以及您想要
Kotlin 未解决的参考：CLI 上 gradle 的 println

放一个printlnkotlin 函数返回之前的语句会崩溃堆栈跟踪 thufir dur NetBeansProjects kotlin thufir dur NetBeansProjects kotlin gradle clean bu
Spring Security SAML2 使用 G Suite 作为 Idp

我正在尝试使用 Spring Security 5 3 3 RELEASE 来处理 Spring Boot 应用程序中的 SAML2 身份验证 Spring Boot 应用程序将成为 SP G Suite 将成为 IDP 在我的 Maven
如何检测 Java 字符串中的 unicode 字符？

假设我有一个包含的字符串我如何找到所有这些 un icode 字符我应该测试他们的代码吗我该怎么做呢例如给定字符串 A X 我想将其转换为 AYXY 我想对其他 unicode 字符做同样的事情并且我不想将它们存储在某种翻译映
如何避免 ArrayIndexOutOfBoundsException 或 IndexOutOfBoundsException？ [复制]

这个问题在这里已经有答案了如果你的问题是我得到了java lang ArrayIndexOutOfBoundsException在我的代码中我不明白为什么会发生这种情况这意味着什么以及如何避免它这应该是最全面的典范 https me
如何在 Spring 属性中进行算术运算？
HashMap 值需要不可变吗？

我知道 HashMap 中的键需要是不可变的或者至少确保它们的哈希码 hashCode 不会改变或与另一个具有不同状态的对象发生冲突但是 HashMap中存储的值是否需要与上面相同为什么或者为什么不这个想法是能够改变值例如在其上调
返回 Java 8 中的通用函数接口

我想写一种函数工厂它应该是一个函数以不同的策略作为参数调用一次它应该返回一个函数该函数根据参数选择其中一种策略该参数将由谓词实现嗯最好看看condition3为了更好的理解问题是它没有编译我认为因为编译器无法弄清楚函数式
使用按钮作为列表的渲染器

我想使用一个更复杂的渲染器其中包含列表的多个组件更准确地说类似于this https stackoverflow com questions 10840498 java swing 1 6 textinput like firefox
如何重新启动死线程？ [复制]

这个问题在这里已经有答案了有哪些不同的可能性可以带来死线程回到可运行状态如果您查看线程生命周期图像就会发现一旦线程终止您就无法返回到新位置 So 没有办法将死线程恢复到可运行状态相反您应该创建一个新的 Thread 实例
Java中HashMap和ArrayList的区别？

在爪哇 ArrayList and HashMap被用作集合但我不明白我们应该在哪些情况下使用ArrayList以及使用时间HashMap 他们两者之间的主要区别是什么您具体询问的是 ArrayList 和 HashMap 但我认为要完
泛型、数组和 ClassCastException

我想这里一定发生了一些我不知道的微妙事情考虑以下 public class Foo

随机推荐

当从单独的类调用 PopupWindow 方法时，如何从 xml 文件定义 PopupWindow 中的布局

当从单独的类调用 PopupWindow 方法时我希望能够从 xml 文件定义 PopupWindow 中的布局下面的代码可以根据需要工作除了布局是从 java 文件而不是 xml 文件中提取的我不知道在这种情况下如何正确访问 xm
主干导航在 Firefox 中触发两次

尝试使用 Backbone 的导航属性 this navigate week companyName employeeNo weekEnd trigger true replace false 上面的代码执行一次它击中了这个 routes
如何将 UISearchBar 图标更改为自定义图像？

目前我使用默认的放大镜作为我的搜索栏图标但是我想在其位置放置一个自定义图像特别是此图像自定义箭头图标如何将搜索栏默认图标更改为自定义图像您可以使用setImage功能 searchBar setImage UIImage na
尝试使用 max_element 计算数组中的最大数字时出错

int a max element highesthuman 0 highesthuman 2 if win gt loss cout lt lt You won lt lt win loss lt lt games more than t
Clojure Repl 无法解析所有函数的符号

我用 Leiningen 创建了项目并在中添加了以下代码Core clj file ns hyperstring core use clojure pprint only pprint require clojure java io as
如何获取 RightScale 厨师食谱中正在运行的食谱的完整路径？

从我当前正在执行的食谱食谱中我想访问它在我的执行机器上的当前位置我需要它来访问它的缓存目录结构我有一种感觉它位于 node 内部的某个地方但我根本找不到有关其结构的任何文档有什么建议吗 Thanks 刚刚通过检查 run co
Django查询集附加或注释相关对象字段

需要附加到查询集结果相关的对象字段 Models class User models Model name models CharField max length 50 friends models ManyToManyField self
JSP - 我可以在中使用吗？异常：“必须使用 jsp:body 来指定标记主体”

我在 JSP 中有以下内容
为什么这个 JSON.parse 返回错误：“意外的令牌非法”？

我正在使用 AJAX 请求这是我第一次使用 JSON 或其任何方法 ajax 实用程序将一个参数作为我请求的文件的responseText 或responseXML 返回到onreadystatechange 回调使用一个简单的info
相当于“medium”的 git Pretty 格式是什么？（或者：为什么 %s 中没有 LF）

我正在尝试解决git log pretty format 相当于默认值git log行为我可以发现默认值是中但无法追踪对应的漂亮格式字符串以便我可以复制其中的一部分我真正的问题是为什么 s将提交消息作为一行提供给我吞掉所有换行符
我可以使用 AWS API Gateway 作为 S3 网站的反向代理吗？

我在 AWS S3 上有一个无服务器网站但 S3 有一个我想克服的限制它不允许我拥有友好的 URL 例如我想替换网址 www mywebsite com user html login daniel 对于这个 URL 友好 www m
如何返回 Google App Engine 中的所有 memcached 值？

我想使用我的 python 应用程序引擎内存缓存中的所有数据我事先不知道钥匙我如何获取所有数据唯一读过的功能 http code google com appengine docs python memcache functions
Eclipse Marketplace 错误 - 意外异常：org/eclipse/equinox/internal/p2/repository/RepositoryTransport

当我尝试在 Eclipse 中浏览 Marketplace 时它给出了以下信息 Unexpected exception org eclipse equinox internal p2 repository RepositoryTran
如何让React Flexbox拉伸到全屏高度

我正在尝试创建一个针对移动设备进行优化的 React 应用程序并且使用 Flexbox 完成大部分布局我无法强制应用程序的主容器自动扩展到整个设备高度我可以应用哪些规则特别是我的 html 容器 div div 和我的主应用程序容器
在 PHP 中调整图像大小而不使用第三方库？

在我的一个应用程序中我使用下面的代码片段将上传的图像复制到目录中它工作正常但复制大图像 gt 2MB 比理想情况花费更多时间而且我真的不需要这么大的图像所以我正在寻找一种调整图像大小的方法如何使用 PHP 来实现这一点
在 C++ Windows API 中，在运行时调整窗口大小？

当单击按钮时如何在运行时调整全局 hwnd 变量的大小或者只是在运行时调整窗口大小的任何方法 IE HWND hwnd global int buttonid 250 an id for a button also global int
在 Python 中搜索二维元组/列表

我想搜索一个tuple of tuples对于特定字符串并返回父元组的索引我似乎经常遇到这种搜索的变体最Pythonic的方法是什么 I E derp Cat Pet Dog Pet Spock Vulcan i None for in
访问者模式 VS 迭代器模式：跨层次结构类访问？

我正在研究访客模式的优点并引用设计模式 http it wikipedia org wiki Design Patterns 但是迭代器不能跨具有不同结构的对象工作元素类型例如页面上定义的 Iterator 接口 295 只能访问I
使用 Windows 加密文件系统 (EFS) 对 FILESTREAMS 进行 SQL Server 2012 全文搜索

这基本上是一个是否问题但如果答案包括支持参考资料以及答案如果答案是是我们将不胜感激奇怪的是我在 MSDN 或 TechNet 中找不到明确的答案我的直觉和实验让我得出了不的结论是否可以将 Windows EFS 与 S
如何处理来自 S3 的大文件并在 Spring Batch 中使用它

我有一个 CSV 文件其中包含数百万条记录大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理请在下面找到我的代码在下面的代码中我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中

如何处理来自 S3 的大文件并在 Spring Batch 中使用它

如何处理来自 S3 的大文件并在 Spring Batch 中使用它 的相关文章

随机推荐

热门标签

如何处理来自 S3 的大文件并在 Spring Batch 中使用它的相关文章