Download File from S3 Given a URL

概述

在当今的软件开发环境中，与亚马逊简单存储服务（Amazon Simple Storage Service，简称S3）的交互已经成为许多应用程序的基本组成部分。一个常见的需求是从提供的URL下载存储在S3中的文件。本文将探讨使用Java、Spring Boot和Java AWS SDK实现这一功能的简化方法。

1. 设置

首先，我们需要配置AWS凭据以访问S3存储桶。这可以通过多种方式完成。为了开发目的，我们可以在application.properties文件中设置凭证：

aws.accessKeyId= <your_access_key_id>
aws.secretKey= <your_secret_access_key>
aws.region= <your_region>

接下来，我们需要添加AWS S3的Maven依赖项：

<dependency>
    <groupId>software.amazon.awssdk</groupId>
    <artifactId>s3</artifactId>
    <version>${amazon.s3.version}</version>
</dependency>

2. 配置S3客户端

S3客户端通常指的是允许用户与Amazon S3交互的软件或库。使用AWS Java SDK，我们将通过提供的API创建S3客户端：

S3Client s3Client = S3Client.builder()
    .region(Region.US_EAST_1)
    .credentialsProvider(DefaultCredentialsProvider.create())
    .build();

当与Amazon S3交互时，S3客户端处理身份验证和授权。它使用提供的凭据来验证对S3服务的请求。在这种情况下，我们使用的是default credentials provider。这通常会在环境变量或我们在前期设置中创建的共享凭证文件中查找凭据。

3. 定义下载服务

现在，让我们定义一个服务，用于与S3Client进行下载操作。

首先，我们定义服务的方法接口：

public interface FileService {
    FileDownloadResponse downloadFile(String s3url) throws IOException, S3Exception;
}

接下来，我们将按顺序逐步介绍下载步骤。

3.1. 从URL中提取键和桶

在这个步骤中，我们将专注于从有效的S3 URL中提取关键信息，特别是桶名称和对象键。

假设我们在名为“baeldung”的S3桶中有以下路径的文件：“path/to/my/s3article.txt"。这表示在S3桶内的层次结构中，对象“s3article.txt”位于目录“path”、“to”和“my”内。

为了程序化地提取这些信息，我们将使用Java的URI类解码S3 URL，然后分离主机名（桶名称）和路径（对象键）：

URI uri = new URI(s3Url);
String bucketName = uri.getHost();
String objectKey = uri.getPath()
    .substring(1);

以先前示例为例，URI为“s3://baeldung/path/to/my/s3article.txt”，我们将提取的桶名称为“baeldung”。对象键，即桶内的路径，将是“path/to/my/s3article.txt”。重要的是，通过使用substring(1)，我们将移除开头的“/”字符，结果对象键为“path/to/my/s3article.txt”，这是S3对象键的理想格式。

总之，这里我们可以识别出文件在S3桶内的位置，使我们能够构造请求并执行对所需对象的操作。

3.2. 构建GetObjectRequest

现在，我们将使用AWS SDK构建GetObjectRequest：

GetObjectRequest getObjectRequest = GetObjectRequest.builder()
    .bucket(bucketName) 
    .key(objectKey)
    .build();

GetObjectRequest包含从S3获取对象所需的信息，如桶名称和要获取的对象键。它还允许开发者指定额外参数，如版本ID、范围、响应头等，以自定义对象检索过程的行为。

3.3. 发送GetObjectRequest

准备好GetObjectRequest后，我们将使用配置的S3Client将其发送到Amazon S3以获取对象数据：

ResponseInputStream<GetObjectResponse> responseInputStream = s3ResponseReader.readResponse(getObjectRequest);
GetObjectResponse getObjectResponse = responseInputStream.response();

3.4. 响应数据和元数据

从Amazon S3收到响应后，我们将从GetObjectResponse的ResponseInputStream中提取文件内容及其关联的元数据。

首先，我们将文件内容提取为字节数组：

byte[] fileContent = IOUtils.toByteArray(responseInputStream);

然后，我们可以检查一些有用的元数据：

// Get object metadata
String contentType = getObjectResponse.contentType();         
String contentDisposition =  getObjectResponse.contentDisposition()
String key = getObjectRequest.key();
String filename = extractFilenameFromKey(key);
String originalFilename = contentDisposition == null ? filename : contentDisposition.substring(contentDisposition.indexOf("=")+1);

在向客户端发送响应时，某些元数据是必要的。我们将创建一个抽象类FileDownloadResponse，它封装了文件内容（作为字节）、contentType和originalFilename：

@Builder
@Data
@RequiredArgsConstructor
public class FileDownloadResponse {
private final byte[] fileContent;
private final String originalFilename;
private final String contentType;
}

如果我们想进行集成测试，可以考虑使用Mock S3和Test Containers进行模拟。

4. 结论

在这篇文章中，我们快速了解了如何使用提供的URL从S3下载文件。我们使用了AWS Java SDK，其中包含S3客户端，以安全地让用户访问和下载S3资源。它通过提供方便且一致的API来简化对S3资源的操作，使得管理S3桶和对象变得更加便捷。完整的实现代码可以在GitHub上找到这里。

Persistence

REST

Security

概述