adol001
adol001
### What changes are proposed in this pull request? Parallel zip compression and decompression can be used for RocksInodeStore. ### Why are the changes needed? Checkpoint is too slow for...
### What changes are proposed in this pull request? In the current implementation of InodeSyncStream, when synchronizing a large directory, because mPendingPaths is a queue, the entire synchronization process is...
**Is your feature request related to a problem? Please describe.** We now store 10 billion alluxio inode metadata using rocksdb. The current alluxio checkpoint will tar.gz rocksdb data file by...
**Alluxio Version:** 2.8.1 **Describe the bug** mvn clean test -Phadoop-2 -Dhadoop.version=2.7.3 -pl 'integration/fuse' -Dtest=alluxio.fuse.AlluxioJniFuseFileSystemTest#create ```java when(mFileSystem.getStatus(any(AlluxioURI.class))).thenReturn(mock(URIStatus.class)); ``` ```java return Optional.of(CommonUtils.waitForResult("file completed", () -> { try { return fileSystem.getStatus(uri); } catch...
loss到了4以后,再下降的速度就让人心焦,以此时的encoder model进行cmteb评测,分数很低 预训练loss下降到多少可以进行finetune?求开发者提示一下,当时你们用3台a100训练了多长时间?
reranker "map": 0.5106724000079814, "mrr": 0.583640624496244 1.5 "map": 0.656140927550039, "mrr": 0.746971351731846 CMTEB是11月27日的版本,没有使用--add_instruction
2. 不相似句子之间的相似度分数很高 建议使用bge v1.5,它缓解了相似度分布的问题。 由于我们通过温度为0.01的对比学习来微调模型, 当前BGE模型的相似度分布大约在[0.6, 1]区间内。 因此,相似度大于0.6并不表示这两个句子相似。 对于下游任务,如段落检索或语义相似性, 重要的是分数的相对顺序,而不是绝对值。 如果你需要根据相似度阈值过滤相似句子, 请根据数据的相似度分布(如0.8,0.85,甚至0.9)选择合适的相似度阈值。 是从1.5以后,温度改成0.02解决的吗?
**Alluxio Version:** 2.7.2 **Describe the bug** If delete a file and pre-apply. But this log is rejected by most nodes in the high-availability cluster (the new leader is elected), then...
有没有类似bge 1.5的那种预训练脚本?
我用这个做了评测 测试包括bge-m3, https://huggingface.co/Alibaba-NLP/gte-multilingual-base https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct 从中文ndcg10来看,都不怎么样,逊于bm25。 dense search 8k目前看起来暂时达不到传统搜索效果,能否出一个2k的mldr版本?