跳到主要内容
版本:Next

ObsFile

Obs 文件源连接器

支持这些引擎

Spark

Flink

Seatunnel Zeta

关键特性

  • 多模态

    使用二进制文件格式读写任何格式的文件,例如视频、图片等。简而言之,任何文件都可以同步到目标位置。

  • 精确一次

    在一次 pollNext 调用中读取分割中的所有数据。读取哪些分割将保存在快照中。

  • 列投影

  • 并行性

  • 支持用户自定义split

  • 文件格式类型

    • text
    • csv
    • parquet
    • orc
    • json
    • excel
    • markdown

描述

从华为云 OBS 文件系统读取数据。

如果您使用 spark/flink,为了使用此连接器,您必须确保您的 spark/flink 集群已集成 hadoop。测试的 hadoop 版本是 2.x。

如果您使用 SeaTunnel 引擎,它会在您下载和安装 SeaTunnel 引擎时自动集成 hadoop jar。您可以检查 ${SEATUNNEL_HOME}/lib 下的 jar 包来确认这一点。

我们为了支持更多文件类型做了一些权衡,所以我们使用 HDFS 协议来内部访问 OBS,此连接器需要一些 hadoop 依赖项。 它仅支持 hadoop 版本 2.9.X+

必需的 Jar 列表

jar支持的版本maven
hadoop-huaweicloud支持版本 >= 3.1.1.29下载
esdk-obs-java支持版本 >= 3.19.7.3下载
okhttp支持版本 >= 3.11.0下载
okio支持版本 >= 1.14.0下载

请下载对应 'Maven' 的支持列表,并将其复制到 '$SEATUNNEL_HOME/plugins/jdbc/lib/' 工作目录。

并将所有 jar 复制到 $SEATUNNEL_HOME/lib/

选项

参数名类型必须默认值描述
pathstring-目标目录路径
file_format_typestring-文件类型
bucketstring-OBS 文件系统的桶地址,例如:obs://obs-bucket-name
access_keystring-OBS 文件系统的访问密钥
access_secretstring-OBS 文件系统的访问密钥
endpointstring-OBS 文件系统的端点
read_columnslist-数据源的读取列列表
delimiterstring\001字段分隔符
row_delimiterstring\n行分隔符
parse_partition_from_pathbooleantrue控制是否从文件路径解析分区键和值
skip_header_row_numberlong0跳过前几行,但仅适用于 txt 和 csv。
date_formatstringyyyy-MM-dd日期类型格式
datetime_formatstringyyyy-MM-dd HH:mm:ss日期时间类型格式
time_formatstringHH:mm:ss时间类型格式

变更日志

Change Log
ChangeCommitVersion
[Feature][File] Add markdown parser #9714https://github.com/apache/seatunnel/commit/8b3c07844dev
[Improve][Connector-V2] Add customizable row delimiter support for text file processing (#9608)https://github.com/apache/seatunnel/commit/7898e62e012.3.12
[Improve][Connector-V2] Support maxcompute sink writer with timestamp field type (#9234)https://github.com/apache/seatunnel/commit/a513c495e32.3.12
[improve] update file connectors config (#9034)https://github.com/apache/seatunnel/commit/8041d59dc22.3.11
[Improve][File] Add row_delimiter options into text file sink (#9017)https://github.com/apache/seatunnel/commit/92aa855a342.3.11
Revert " [improve] update localfile connector config" (#9018)https://github.com/apache/seatunnel/commit/cdc79e13ad2.3.10
[improve] update localfile connector config (#8765)https://github.com/apache/seatunnel/commit/def369a85f2.3.10
[Feature][Connector-V2] Add filename_extension parameter for read/write file (#8769)https://github.com/apache/seatunnel/commit/78b23c0ef52.3.10
[Improve] restruct connector common options (#8634)https://github.com/apache/seatunnel/commit/f3499a6eeb2.3.10
[Feature][File] Support config null format for text file read (#8109)https://github.com/apache/seatunnel/commit/2dbf02df472.3.9
[Improve][Connector-V2] Change File Read/WriteStrategy setSeaTunnelRowTypeInfo to setCatalogTable (#7829)https://github.com/apache/seatunnel/commit/6b5f74e5242.3.9
[Feature][Restapi] Allow metrics information to be associated to logical plan nodes (#7786)https://github.com/apache/seatunnel/commit/6b7c53d03c2.3.9
[Feature][Connector-V2] Add Huawei Cloud OBS connector (#4578)https://github.com/apache/seatunnel/commit/d266f4db642.3.6