leonall

Results 10 issues of leonall

https://github.com/qcymkxyc/RecSys/blob/6f8067f8b4ac40af7b7f6099aa5958deba8356e3/main/util/metric.py#L30

https://github.com/philomathic-guy/Malicious-Web-Content-Detection-Using-Machine-Learning/blob/c86d4709354691d702e0c693f482e1fabd3b172c/features_extraction.py#L315

question

`device = torch.device("cuda: " + str(gpu))` refer: https://github.com/xue-pai/TwinModels/blob/master/deem/pytorch/torch_utils.py#L33

Compare with svm and naive-bayes of scikit-learn .... 数据和案例,没看到

举个例子: 问题 ``` 理想汽车销售的车型是什么? ``` 检索到了一篇文章 ``` 5月10日,理想汽车正式公布了2022年第一季度财报。第一季度,公司共交付31,716辆理想ONE车型,同比增长152.1%,实现营业收入95.6亿元,同比增长167.5%。同时,一季度理想汽车净亏损1090万元,去年同期净亏损为3.60亿元。   2022年第一季度,理想汽车收入总额为95.6亿元,较2021年第一季度的35.8亿元增加167.5%,较2021年第四季度的106.2亿元减少10.0%。其中,2022年第一季度的车辆销售收入为93.1亿元,理想汽车表示车辆销售收入较2021年第一季度增加主要归因于2022年第一季度交付车辆增加。车辆销售收入较2021年第四季度减少主要归因于受中国春节假期的季节性影响,致2022年第一季度交付的车辆减少。 ``` chatglm 的答案 ``` 理想汽车是一家新能源汽车制造商,销售的车型主要是新能源汽车,包括理想ONE、理想P7等。 ``` 怎么让 chatglm 严格根据检索的内容进行回答问题,不要`胡说八道`呢?

怎么按句子的原始顺序,而不是按分数呢?

/site-packages/peft/tuners/lora.py", line 464, in class Linear8bitLt(bnb.nn.Linear8bitLt, LoraLayer): AttributeError: module 'bitsandbytes' has no attribute 'nn'

[transformers_tasks](https://github.com/HarderThenHarder/transformers_tasks)/[LLM](https://github.com/HarderThenHarder/transformers_tasks/tree/main/LLM)/llm_classification.py 楼主给每一个类目提供了一个样本,实际业务场景中,一个样本肯定不够。理论上输入的样本越多,识别精度会约好。 大模型的token长度一般是有限的(输入的长度越长,耗时也会越长),[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) 推荐的 token 长度是 2048,如何更高效的利用业务场景已有的样本呢?

客观说评测是挺难的,像 `Chinese-LLaMA-Alpaca` 为了方便,每项能力就 10 道题,存在测试不充分的问题,其分数是很有说服力的。 请问,这些单项能力测试,单能力有多少道题目嗯