bin.pan comments

Results 40 comments of


                                            bin.pan

A dedicated_cores pod do not have an exclusive CPU

@WangZzzhe agent的参数： ```YAML template: metadata: annotations: katalyst.kubewharf.io/qos_level: system_cores creationTimestamp: null labels: app: katalyst-agent app.kubernetes.io/instance: katalyst-colocation app.kubernetes.io/name: katalyst-agent spec: containers: - args: - --plugin-registration-dir=/var/lib/katalyst/plugin-socks - --checkpoint-manager-directory=/var/lib/katalyst/plugin-checkpoint - --locking-file=/tmp/katalyst_colocation_katalyst_agent_lock - --node-name=$(MY_NODE_NAME) -...

A dedicated_cores pod do not have an exclusive CPU

> @flpanbin > 修改 `--topology-policy-name=none` 为 `--topology-policy-name=best-effort` 再尝试下 > none policy下不会进行资源分配 @WangZzzhe 设置了 `--topology-policy-name=best-effort` 还是不行 ```shell root@ubuntu:~/katalyst# ps -ef | grep katalyst-agent root 2423499 2423425 15 Jun05 ? 01:31:28 katalyst-metric...

A dedicated_cores pod do not have an exclusive CPU

@WangZzzhe 请问这个有什么定位思路吗？还需要提供哪些信息来定位问题呢？我按照文档安装的 Kubewharf enhanced kubernetes, 文档提供的 helm 命令安装的相关组件： `helm install katalyst-colocation -n katalyst-system --create-namespace kubewharf/katalyst-colocation` ```shell root@ubuntu:~/katalyst/examples# kubectl get nodes NAME STATUS ROLES AGE VERSION 10.6.202.151 Ready control-plane 13d...

A dedicated_cores pod do not have an exclusive CPU

> @flpanbin > 根据katalyst-agent的启动参数，应该是运行了ORM模式，kubelet中的qosResourceManager是没有生效的。 > ![image](https://private-user-images.githubusercontent.com/140723059/337087403-2a696b2f-0757-45b7-a2e4-cb6d63959540.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTc2NDQ2NjYsIm5iZiI6MTcxNzY0NDM2NiwicGF0aCI6Ii8xNDA3MjMwNTkvMzM3MDg3NDAzLTJhNjk2YjJmLTA3NTctNDViNy1hMmU0LWNiNmQ2Mzk1OTU0MC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNjA2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDYwNlQwMzI2MDZaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT04YTczYjYyZDUwZGFiYWEzODc4MmQxZDA2ZTY4OGZhOTU4NTJhYjg1YmEyZjJlZDhiNTgzOGFkNDIwZTEwNmJkJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.-bZbw00fIt7q3-5sfU6_vWMP2gnNnvoqL2M-vlGZZmE) > 从KCNR的信息看这个pod已经分配成功了，独占了一个NUMA的24C 但是为什么我查看容器的 cpuset 和还是显示的 0-47呢，按理说应该是分配了24core ```shell root@ubuntu:~/katalyst# cat /sys/fs/cgroup/cpuset/kubepods/podb077c70f-6103-43f9-ba77-64d67ec736ba/cpuset.cpus 0-47 root@ubuntu:~/katalyst# cat /sys/fs/cgroup/cpuset/kubepods/podb077c70f-6103-43f9-ba77-64d67ec736ba/80c10c4e45cbe275bafac9cf8b74ef72e6c0b9565d33389fce86f6e7c3737843/cpuset.cpus 0-47 root@ubuntu:~/katalyst# cat /sys/fs/cgroup/cpuset/kubepods/podb077c70f-6103-43f9-ba77-64d67ec736ba/604fc985574b2ff117630b699dd4e9ac77c95d316b6ece904385694db0090268/cpuset.cpus 0-47 ```

A dedicated_cores pod do not have an exclusive CPU

@WangZzzhe syncContainer 没有看到有错误日志，但是看有日志显示分配的结果是 0-47： `cpu for pod: default/dedicated-normal-pod2, container: stress is {CpusetCpus false true 48 0-47 map[] map[] nil {} 0}` ```SHELL I0606 06:28:10.191773 1 manager.go:536] [ORM] reconcile... I0606 06:28:10.193289...

A dedicated_cores pod do not have an exclusive CPU

@WangZzzhe ` /var/lib/katalyst/qrm_advisor/cpu_plugin_state` 显示分配了多次，最后一次的分配结果是` `"allocation_result": "0-47",` ```shell { "policyName": "dynamic", "machineState": { "0": { "default_cpuset": "", "allocated_cpuset": "0-23", "pod_entries": { "754dc697-7658-47cc-8faa-0280c2931925": { "stress": { "pod_uid": "754dc697-7658-47cc-8faa-0280c2931925", "pod_namespace": "default", "pod_name": "dedicated-normal-pod2",...

worker pod 资源泄露

感谢您的反馈，请问这个有稳定的复现路径吗？

worker pod 资源泄露

> 在使用kubectl-node_shell时，也有这种情况，cloudshell关闭时，pod仍然存活。期望cloudshell为comleted状态时，能把对应的pod清理掉。为了提高控制台打开的速度，cloudshell 会复用已创建的 worker，所以 worker 使用完后可能不会立即删除。如果空闲 worker 数不超过 core-worker-limit，则会一直保留。core-worker-limit 参数默认值为 5，麻烦确认下是否是这种场景。如果不是上述场景麻烦描述下具体的操作步骤。方便的话，麻烦贴下 cloudtty-controller-manager 的日志。

worker pod 资源泄露

> 0.5.0版本不会根据core-worker-limit进行复用，建议使用哪个版本？使用新版本试试 0.7.8。

Support contextual logging

感谢您的反馈，这个问题我们排期优化下，也欢迎大家一起参与贡献。