Mark McLoughlin issues

Results 15 issues of


                                            Mark McLoughlin

[V0][Metrics] Deprecate some KV/prefix cache metrics

`vllm:num_requests_swapped`, `vllm:cpu_cache_usage_perc` and `vllm:cpu_prefix_cache_hit_rate` will no longer be relevant in V1 since we no longer implement KV cache offloading. So these metrics should be considered deprecated. And as agreed in...

[V0][Metrics] Deprecate some questionable request time metrics

vllm:time_in_queue_requests appears to be an exact duplicate of vllm:request_queue_time_seconds. Both record `first_scheduled_time-arrival_time`: ``` if seq_group.is_finished(): time_queue_requests.append( seq_group.metrics.first_scheduled_time - seq_group.metrics.arrival_time) ``` ``` def maybe_set_first_scheduled_time(self, time: float) -> None: if self.metrics.first_scheduled_time is...

ready

frontend

speculative-decoding

ready

Mark McLoughlin

[V0][Metrics] Deprecate some KV/prefix cache metrics

[V0][Metrics] Deprecate some questionable request time metrics

[V0][Metrics] Remove unimplemented `vllm:tokens_total`

[WIP][[V1][Metrics] Implement max_num_generation_tokens metrics

[V1][Metrics] Add API for accessing in-memory Prometheus metrics