Zurück zu Fähigkeiten

harness:certify

raphaelchristi
Aktualisiert 5 days ago
27
4
27
Auf GitHub ansehen
Dokumentationgeneral

Über

Diese Fähigkeit überprüft die Punktestabilität eines weiterentwickelten Agenten, indem sie dessen Bewertung dreimal durchführt und den Mittelwert sowie die Standardabweichung meldet. Sie wird eingesetzt, wenn Entwickler sicherstellen müssen, dass Leistungskennzahlen zuverlässig sind und nicht auf zufällige Schwankungen zurückzuführen sind. Die Fähigkeit liest automatisch die Projektkonfiguration und führt Bewertungen des aktuell besten Codes durch.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add raphaelchristi/harness-evolver -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/raphaelchristi/harness-evolver
Git CloneAlternativ
git clone https://github.com/raphaelchristi/harness-evolver.git ~/.claude/skills/harness:certify

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

Dokumentation

/harness:certify

Verify score stability by running evaluation multiple times and reporting statistical confidence.

Resolve Tool Path

TOOLS="${EVOLVER_TOOLS:-$([ -d ".evolver/tools" ] && echo ".evolver/tools" || echo "$HOME/.evolver/tools")}"
EVOLVER_PY="${EVOLVER_PY:-$([ -f "$HOME/.evolver/venv/bin/python" ] && echo "$HOME/.evolver/venv/bin/python" || echo "python3")}"

What To Do

Read .evolver.json to get the best experiment and dataset.

Run evaluation 3 times on the current code (not a worktree — the best code is already merged):

for i in 1 2 3; do
    $EVOLVER_PY $TOOLS/run_eval.py \
        --config .evolver.json \
        --worktree-path "." \
        --experiment-prefix "certify-run-$i"
done

After all 3 runs complete, read results and compute statistics:

$EVOLVER_PY $TOOLS/read_results.py --experiments "certify-run-1-{suffix},certify-run-2-{suffix},certify-run-3-{suffix}" --config .evolver.json --format summary

Calculate mean and standard deviation from the 3 combined_scores.

Report

CERTIFICATION REPORT
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Runs:  3
Mean:  {mean:.3f}
Std:   {std:.3f}
Range: {min:.3f} — {max:.3f}

Verdict: {STABLE|UNSTABLE}

STABLE (std < 0.05): Score is reliable. The agent performs consistently.

MARGINAL (0.05 <= std < 0.10): Score varies moderately. Consider adding rubrics to reduce judge variance.

UNSTABLE (std >= 0.10): Score is unreliable. The LLM judge interprets criteria differently across runs. Add few-shot examples or tighter rubrics.

After Certification

If STABLE: suggest /harness:deploy to finalize. If UNSTABLE: suggest adding rubrics to dataset examples, or running /harness:evolve with heavy mode for more thorough evaluation.

GitHub Repository

raphaelchristi/harness-evolver
Pfad: skills/certify
0
agent-evolutionclaude-code-plugincodex-skillsharness-engineeringmeta-harness

Verwandte Skills

railway-docs

Dokumentation

Diese Fähigkeit ruft aktuelle Railway-Dokumentation ab, um Fragen zu Funktionen, Funktionalität oder spezifischen Dokumentations-URLs zu beantworten. Sie stellt sicher, dass Entwickler genaue, aktuelle Informationen direkt aus den offiziellen Quellen von Railway erhalten. Nutzen Sie sie, wenn Nutzer fragen, wie Railway funktioniert oder auf Railway-Dokumentation verweisen.

Skill ansehen

n8n-code-python

Dokumentation

Dieses Claude Skill bietet fachkundige Anleitung zum Schreiben von Python-Code in n8n-Code-Nodes, insbesondere für die Verwendung der Python-Standardbibliothek und den Umgang mit n8ns spezieller Syntax wie `_input`, `_json` und `_node`. Es hilft Entwicklern, die Grenzen von Python innerhalb von n8n zu verstehen, empfiehlt JavaScript für die meisten Workflows und bietet gleichzeitig Python-Lösungen für spezifische Datenumwandlungsanforderungen.

Skill ansehen

archon

Dokumentation

Die Archon-Funktion bietet semantische Suche auf RAG-Basis und Projektmanagement über eine REST-API. Nutzen Sie sie für das Abfragen von Dokumentation, die Verwaltung hierarchischer Projekte/Aufgaben und die Durchführung von Wissenabruf mit Dokumenten-Upload-Fähigkeiten. Priorisieren Sie stets Archon zuerst bei der Suche in externer Dokumentation, bevor Sie andere Quellen verwenden.

Skill ansehen

n8n-code-javascript

Dokumentation

Diese Claude-Skill bietet fachkundige Anleitung für das Schreiben von JavaScript-Code in n8n-Code-Nodes. Sie behandelt wesentliche n8n-spezifische Syntax wie `$input`/`$json`-Variablen, HTTP-Helfer und DateTime-Verarbeitung und hilft bei der Fehlerbehebung häufiger Probleme. Nutzen Sie sie bei der Entwicklung von n8n-Workflows, die eine benutzerdefinierte JavaScript-Verarbeitung in Code-Nodes erfordern.

Skill ansehen