FuYouJ
FuYouJ
当 HDFS 的需要读取数据的文件夹下有存在一个大小为0空文件时,并且此时在hdfsreader的path配置的为此目录时会报如下的错误 。  DataX 的 hdfsreader 时直接配置读取的HDFS 目录后,如果此目录下存在空文件时会报异常,尽管此文件类型是合法的。 这里的修复逻辑是:调用filesStatus的getlen()判断文件长度,如果是0就跳过类型判断。 。 另外还对正则表达式的判断做了增强。 之前的代码: ` if (hdfsPath.contains("*") || hdfsPath.contains("?")) {` 之后的代码 ` if (Pattern.compile("\\*|\\?|\\[\\^?\\w+\\]|\\[\\^?\\w-\\w\\]|\\{[\\w\\{\\}\\,]+\\}").matcher(hdfsPath).find()) {`
## Purpose of this pull request ## Check list * [x] Code changed are covered with tests, or it does not need tests for reason: * [x] If any new...
### Search before asking - [X] I had searched in the [feature](https://github.com/apache/seatunnel/issues?q=is%3Aissue+label%3A%22Feature%22) and found no similar feature requirement. ### Description The current neo4j sink does not support batch writing. I...
[issue](https://github.com/alibaba/DataX/issues/1804) ### 添加了详细的文档和测试用例 测试用例使用了testcontainers,每个使用者、改进者、reviewer 都可以下载源码在本地**无需配置数据库**就能验证writer逻辑。 ### 详细的使用文档和用例文档 参见 [neo4jwriter/doc/neo4jwriter.md](https://github.com/com-kalisita/DataX/blob/neo4jwriter/neo4jwriter/doc/neo4jwriter.md) ### 性能报告 **JVM参数** 16G G1垃圾收集器 8核心 **Neo4j数据库配置** 32核心,256G **datax 配置** Channel 20 batchsize = 1000 数据量:200W+ 同步时间:51s 速度:44440rec/s 具体参见[neo4jwriter/doc/neo4jwriter.md](https://github.com/com-kalisita/DataX/blob/neo4jwriter/neo4jwriter/doc/neo4jwriter.md)
在公司搞了半年的数据同步,但是主要是增量更新。 公司内部的版本是更新、新增都会使用,neo4j是一个具有事务的数据库,更新会有锁竞争,所以公司内部的版本是解决了锁竞争的问题的(死锁检查加重试)。 考虑到开源版本,大家都是用来新增吧,所以不打算处理锁竞争的问题。 有啥意见可以提,我近期准备动手写代码了
### Search before asking - [X] I had searched in the [feature](https://github.com/apache/seatunnel/issues?q=is%3Aissue+label%3A%22Feature%22) and found no similar feature requirement. ### Description Elastic search Support multi-table source feature ### Usage Scenario _No...
### Search before asking - [X] I had searched in the [feature](https://github.com/apache/seatunnel/issues?q=is%3Aissue+label%3A%22Feature%22) and found no similar feature requirement. ### Description Neo4j Connector implement TypeConvert And ConnFactory. SupportType: reference https://neo4j.com/docs/cypher-manual/current/values-and-types/property-structural-constructed/ ###...
这里预期应该会返回一条带name字段的文档。 但是解析后的结果,limit 1因为聚合的原因,被抛弃了。 ```json { "from": 0, "size": 0, "_source": { "includes": [ "COUNT", "AVG", "name" ], "excludes": [] }, "stored_fields": "name", "aggregations": { "count": { "value_count": { "field": "_index"...
我的使用场景是直接将SQL转换为ES,然后再使用我们自己的客户端。 String es = searchDao.explain(sql).explain().explain(); 我如何通过我们的转换工具提取到我SQL中的ES索引名称呢?
项目首页只看到了普通的SQL查询,比如查询日期范围,模糊查询之类,前缀查询应该怎么书写