qdrant-vertical-scaling
정보
이 스킬은 RAM과 CPU 같은 노드 자원을 업그레이드하여 Qdrant를 수직적으로 확장하는 방법에 대한 지침을 제공합니다. 이는 자원 부족에 대한 질의나 수평 확장의 복잡성을 피하기 위해 노드를 확장하는 경우에 트리거됩니다. 조언은 Qdrant Cloud 콘솔 조정과 자체 호스팅 VM/컨테이너 크기 조정을 모두 다룹니다.
빠른 설치
Claude Code
추천npx skills add qdrant/skills -a claude-code/plugin add https://github.com/qdrant/skillsgit clone https://github.com/qdrant/skills.git ~/.claude/skills/qdrant-vertical-scalingClaude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요
문서
What to Do When Qdrant Needs to Scale Vertically
Vertical scaling means increasing CPU, RAM, or disk on existing nodes rather than adding more nodes. This is the recommended first step before considering horizontal scaling. Vertical scaling is simpler, avoids distributed system complexity, and is reversible.
- Vertical scaling for Qdrant Cloud is done through the Qdrant Cloud Console
- For self-hosted deployments, resize the underlying VM or container resources
When to Scale Vertically
Use when: current node resources (RAM, CPU, disk) are insufficient, but the workload doesn't yet require distribution.
- RAM usage approaching 80% of available memory (OS page cache eviction starts, severe performance degradation)
- CPU saturation during query serving or indexing
- Disk space running low for on-disk vectors and payloads
- A single node can handle up to ~100M vectors depending on dimensions and quantization
- For non-production workloads, which are tolerant to single-point-of-failure and don't require high availability
How to Scale Vertically in Qdrant Cloud
Vertical scaling is managed through the Qdrant Cloud Console.
- Log into Qdrant Cloud Console or use CLI tool
- Select the cluster to resize
- Choose a larger node configuration (more RAM, CPU, or both)
- The upgrade process involves a rolling restart with no downtime if replication is configured
- Ensure
replication_factor: 2or higher before resizing to maintain availability during the rolling restart
Important: Scaling up is straightforward. Scaling down requires care -- if the working set no longer fits in RAM after downsizing, performance will degrade severely due to cache eviction. Always load test before scaling down.
RAM Sizing Guidelines
RAM is the most critical resource for Qdrant performance. Use these guidelines to right-size.
- Exact estimation of RAM usage is difficult; use this simple approximate formula:
num_vectors * dimensions * 4 bytes * 1.5for full-precision vectors in RAM - With scalar quantization: divide by 4 (INT8 reduces each float32 to 1 byte) Quantization
- With binary quantization: divide by 32 Binary quantization
- Add overhead for HNSW index (~20-30% of vector data), payload indexes, and WAL
- Reserve 20% headroom for optimizer operations and OS cache
- Monitor actual usage via Grafana/Prometheus before and after resizing Monitoring
When Vertical Scaling Is No Longer Enough
Recognize these signals that it's time to go horizontal:
- Data volume exceeds what a single node can hold even with quantization and mmap
- IOPS are saturated (more nodes = more independent disk I/O)
- Need fault tolerance (requires replication across nodes)
- Need tenant isolation via dedicated shards
- Single-node CPU is maxed and query latency is unacceptable
- Next vertical scaling step is the largest available node size. You might need to be able to temporarily scale up to the larger node size to do batch operations or recovery. If you are already at the largest node size, you won't be able to do that.
When you hit these limits, see Horizontal Scaling for guidance on sharding and node planning.
What NOT to Do
- Do not scale down RAM without load testing first (cache eviction = severe latency degradation that can last days)
- Do not ignore the 80% RAM threshold (performance cliff, not gradual degradation)
- Do not skip replication before resizing in Cloud (rolling restart without replicas = downtime)
- Do not jump to horizontal scaling before exhausting vertical options (adds permanent operational complexity)
- Do not assume more CPU always helps (IOPS-bound workloads won't improve with more cores)
GitHub 저장소
연관 스킬
executing-plans
디자인executing-plans 스킬은 검토 체크포인트가 포함된 통제된 배치로 실행할 완전한 구현 계획이 있을 때 사용합니다. 이 스킬은 계획을 불러와 비판적으로 검토한 후, 소규모 배치(기본값 3개 작업)로 작업을 실행하면서 각 배치 사이에 진행 상황을 아키텍트 검토를 위해 보고합니다. 이를 통해 내재된 품질 관리 체크포인트를 갖춘 체계적인 구현이 보장됩니다.
requesting-code-review
디자인이 스킬은 코드 변경 사항을 요구 사항에 따라 분석하기 위해 코드 리뷰어 하위 에이전트를 호출합니다. 작업 완료 후, 주요 기능 구현 후, 또는 메인 브랜치에 병합하기 전에 사용해야 합니다. 이 리뷰는 현재 구현체와 원래 계획을 비교하여 문제를 조기에 발견하는 데 도움이 됩니다.
connect-mcp-server
디자인이 스킬은 개발자들이 HTTP, stdio 또는 SSE 전송 방식을 통해 MCP 서버를 Claude Code에 연결하는 포괄적인 가이드를 제공합니다. GitHub, Notion 및 사용자 정의 API와 같은 외부 서비스를 통합하기 위한 설치, 구성, 인증 및 보안을 다룹니다. MCP 통합 설정, 외부 도구 구성 또는 Claude의 모델 컨텍스트 프로토콜 작업 시 활용하세요.
web-cli-teleport
디자인이 스킬은 작업 분석을 기반으로 개발자가 Claude Code 웹 인터페이스와 CLI 인터페이스 중 선택할 수 있도록 돕고, 두 환경 간 원활한 세션 텔레포트를 가능하게 합니다. 웹, CLI 또는 모바일 환경 전환 시 세션 상태와 컨텍스트를 관리하여 워크플로를 최적화합니다. 다양한 단계에서 서로 다른 도구가 필요한 복잡한 프로젝트에 사용하세요.
