Back to Skills

data-exploration-visualization

majiayu000
Updated Today
4 views
58
9
58
View on GitHub
Designdesigndata

About

This Claude Skill automates exploratory data analysis (EDA) and visualization, providing a complete pipeline from data loading to generating professional HTML reports. It supports intelligent data diagnostics, multiple chart types, automated modeling with evaluation, and specialized analysis for domains like healthcare and finance. Use it to quickly understand datasets, create visualizations, and produce shareable analysis reports within your development workflow.

Quick Install

Claude Code

Recommended
Plugin CommandRecommended
/plugin add https://github.com/majiayu000/claude-skill-registry
Git CloneAlternative
git clone https://github.com/majiayu000/claude-skill-registry.git ~/.claude/skills/data-exploration-visualization

Copy and paste this command in Claude Code to install this skill

Documentation

数据探索可视化技能

技能概述

数据探索可视化技能是一个基于《数据分析咖哥十话》第2课理论的自动化EDA工具包,提供从数据加载到专业分析报告生成的完整解决方案。该技能集成了最先进的数据探索、可视化和机器学习技术,帮助用户快速深入理解数据特征和规律。

核心功能

🔍 智能数据探索

  • 自动数据诊断: 检测数据质量问题、异常值和缺失值模式
  • 统计描述分析: 生成全面的统计摘要和分布特征
  • 相关性分析: 识别特征间关系和依赖模式
  • 数据质量报告: 专业级数据质量评估和建议

📊 专业可视化生成

  • 分布可视化: 直方图、密度图、小提琴图、QQ图
  • 统计可视化: 箱线图、误差条图、置信区间图
  • 关系可视化: 散点图、热图、配对图、3D散点图
  • 专门图表: ROC曲线、混淆矩阵、特征重要性图
  • 交互式图表: Plotly驱动的动态可视化

🏥 医疗数据专精

  • 医疗编码支持: ICD-10、SNOMED CT等医疗标准
  • 生物标记物分析: 专门的医学指标处理
  • 诊断模型构建: 医疗预测模型和评估
  • 医学可解释性: 符合医学实践的解释框架

🤖 自动化建模评估

  • 多算法支持: 逻辑回归、随机森林、XGBoost、神经网络
  • 自动特征工程: 特征选择、转换和优化
  • 超参数调优: 网格搜索和贝叶斯优化
  • 模型可解释性: SHAP值、特征重要性、部分依赖图

📋 专业报告生成

  • HTML报告: 可发表级交互式分析报告
  • PDF导出: 高质量文档格式输出
  • Markdown支持: 轻量级报告格式
  • 自定义模板: 可配置的报告模板系统

使用场景

🏥 医疗健康领域

  • 疾病预测: 基于临床数据的疾病风险预测
  • 诊断辅助: 医学影像和检验结果分析
  • 流行病学研究: 疫情数据分析和趋势预测
  • 临床试验: 试验数据统计分析和可视化

💰 金融风控领域

  • 信用评估: 个人和企业信用风险建模
  • 欺诈检测: 异常交易模式识别
  • 投资分析: 市场趋势和风险评估
  • 合规报告: 监管要求的分析报告

🛒 电商零售领域

  • 用户分析: 客户行为和偏好分析
  • 销售预测: 销量预测和库存优化
  • 推荐系统: 个性化推荐算法评估
  • 市场细分: 客户群体分析和画像

🎓 科研教育领域

  • 学术研究: 数据驱动的学术研究支持
  • 教学案例: 数据分析教学和实践
  • 论文写作: 研究数据分析和图表制作
  • 技能培训: 数据科学技能培训工具

工具使用指南

快速开始

  1. 基础数据探索

    from scripts.eda_analyzer import EDAAnalyzer
    
    # 初始化分析器
    analyzer = EDAAnalyzer()
    
    # 加载数据并自动分析
    data = analyzer.load_data('data.csv')
    report = analyzer.auto_eda(data)
    
  2. 可视化生成

    from scripts.visualizer import DataVisualizer
    
    # 初始化可视化器
    visualizer = DataVisualizer()
    
    # 自动生成所有图表
    charts = visualizer.auto_visualize(data)
    
    # 生成特定类型图表
    dist_plot = visualizer.plot_distribution(data, 'column_name')
    corr_heatmap = visualizer.plot_correlation(data)
    
  3. 建模评估

    from scripts.modeling_evaluator import ModelingEvaluator
    
    # 初始化建模器
    modeler = ModelingEvaluator()
    
    # 自动建模和评估
    results = modeler.auto_modeling(
        data=data,
        target_col='target',
        algorithms=['logistic', 'rf', 'xgboost']
    )
    
  4. 报告生成

    from scripts.report_generator import ReportGenerator
    
    # 生成完整报告
    generator = ReportGenerator()
    report = generator.generate_comprehensive_report(
        data=data,
        model_results=model_results,
        output_path='analysis_report.html'
    )
    

高级功能

  1. 医疗数据分析

    # 医疗数据特殊处理
    from scripts.medical_analyzer import MedicalDataAnalyzer
    
    medical_analyzer = MedicalDataAnalyzer()
    medical_report = medical_analyzer.analyze_medical_data(
        data=medical_df,
        diagnosis_col='diagnosis',
        biomarker_cols=['biomarker1', 'biomarker2']
    )
    
  2. 交互式仪表板

    # 生成交互式仪表板
    dashboard = visualizer.create_dashboard(
        data=data,
        charts=['distribution', 'correlation', 'model_performance']
    )
    
  3. 批量数据处理

    # 批量分析多个数据集
    batch_results = analyzer.batch_analyze(
        data_files=['data1.csv', 'data2.csv'],
        analysis_types=['eda', 'modeling', 'visualization']
    )
    

技术依赖

核心库

  • pandas (>=1.3.0): 数据处理和分析
  • numpy (>=1.20.0): 数值计算
  • scikit-learn (>=1.0.0): 机器学习算法
  • xgboost (>=1.5.0): 梯度提升算法

可视化库

  • matplotlib (>=3.4.0): 基础绘图
  • seaborn (>=0.11.0): 统计可视化
  • plotly (>=5.0.0): 交互式图表

统计分析库

  • scipy (>=1.7.0): 科学计算
  • statsmodels (>=0.13.0): 统计建模

报告生成

  • jinja2 (>=3.0.0): 模板引擎
  • weasyprint: PDF生成

最佳实践

数据准备

  • 确保数据格式规范(CSV、Excel等)
  • 检查数据编码,避免中文乱码
  • 处理缺失值和异常值
  • 验证数据类型和格式

分析流程

  1. 数据加载和检查: 确认数据质量和完整性
  2. 探索性分析: 了解数据基本特征和分布
  3. 可视化探索: 通过图表发现数据模式
  4. 预处理: 数据清洗和特征工程
  5. 建模分析: 构建和评估预测模型
  6. 结果解释: 提取洞察和业务建议
  7. 报告生成: 创建专业分析报告

可视化选择

  • 单变量分析: 直方图、箱线图、小提琴图
  • 双变量分析: 散点图、分组箱线图
  • 多变量分析: 热图、配对图、3D图
  • 时间序列: 时间线图、趋势图
  • 地理数据: 地图可视化

示例数据

医疗数据示例

# 乳腺检查数据示例
medical_data = {
    'patient_id': ['P001', 'P002', ...],
    'diagnosis': ['Malignant', 'Benign', ...],
    'radius_mean': [17.99, 20.57, ...],
    'texture_mean': [10.38, 17.77, ...],
    'perimeter_mean': [122.8, 132.9, ...]
}

金融数据示例

# 信用评分数据示例
financial_data = {
    'customer_id': ['C001', 'C002', ...],
    'credit_score': [720, 680, ...],
    'income': [85000, 62000, ...],
    'debt_ratio': [0.15, 0.32, ...],
    'default': [0, 1, ...]
}

常见问题

Q: 如何处理中文数据?

A: 技能自动检测和处理中文编码,支持UTF-8、GBK等多种编码格式。

Q: 支持哪些数据格式?

A: 支持CSV、Excel、JSON、Parquet等常见格式,也支持数据库连接。

Q: 如何自定义可视化样式?

A: 可以通过配置文件自定义颜色、字体、图表布局等样式参数。

Q: 模型准确性如何保证?

A: 技能采用交叉验证、多种评估指标和集成方法来确保模型的可靠性和泛化能力。

技能特色

智能化程度高 - 90%的EDA工作自动化 ✅ 专业性突出 - 医疗数据专精处理 ✅ 可视化丰富 - 20+种专业图表类型 ✅ 建模能力强 - 多算法集成和自动调优 ✅ 报告质量高 - 可发表级分析报告 ✅ 易用性好 - 简单API,复杂流程自动化 ✅ 扩展性强 - 模块化设计,易于定制扩展

更新日志

v1.0.0 (2025-01-19)

  • 初始版本发布
  • 完整的EDA功能
  • 基础可视化支持
  • 逻辑回归建模
  • HTML报告生成

未来计划

  • 支持更多机器学习算法
  • 增加深度学习模型支持
  • 扩展医疗数据分析功能
  • 云端部署支持
  • 实时数据分析能力

通过这个技能,您可以大幅提升数据分析效率,从重复性工作中解放出来,专注于洞察发现和决策支持。

GitHub Repository

majiayu000/claude-skill-registry
Path: skills/data-exploration-visualization

Related Skills

content-collections

Meta

This skill provides a production-tested setup for Content Collections, a TypeScript-first tool that transforms Markdown/MDX files into type-safe data collections with Zod validation. Use it when building blogs, documentation sites, or content-heavy Vite + React applications to ensure type safety and automatic content validation. It covers everything from Vite plugin configuration and MDX compilation to deployment optimization and schema validation.

View skill

creating-opencode-plugins

Meta

This skill provides the structure and API specifications for creating OpenCode plugins that hook into 25+ event types like commands, files, and LSP operations. It offers implementation patterns for JavaScript/TypeScript modules that intercept and extend the AI assistant's lifecycle. Use it when you need to build event-driven plugins for monitoring, custom handling, or extending OpenCode's capabilities.

View skill

langchain

Meta

LangChain is a framework for building LLM applications using agents, chains, and RAG pipelines. It supports multiple LLM providers, offers 500+ integrations, and includes features like tool calling and memory management. Use it for rapid prototyping and deploying production systems like chatbots, autonomous agents, and question-answering services.

View skill

Algorithmic Art Generation

Meta

This skill helps developers create algorithmic art using p5.js, focusing on generative art, computational aesthetics, and interactive visualizations. It automatically activates for topics like "generative art" or "p5.js visualization" and guides you through creating unique algorithms with features like seeded randomness, flow fields, and particle systems. Use it when you need to build reproducible, code-driven artistic patterns.

View skill