gh-gqy20-cc-plugins-plugins…/skills/data-integration-formatting.md

---
name: 数据整合格式化技能
description: 专为专家分析报告生成而设计的数据整合与格式化技能。整合Google Scholar数据获取和Nature格式参考文献标准化，提供统一的数据处理流程，确保报告的数据完整性、格式规范性和可验证性。该技能避免了多个数据处理工具的切换，提供高效的一站式数据整合格式化服务。
allowed-tools: Read, Write, Edit, Bash, Task, mcp__playwright__playwright_navigate, mcp__playwright__playwright_get_visible_text, mcp__playwright__playwright_click, mcp__playwright__playwright_fill, mcp__playwright__playwright_evaluate, mcp__playwright__playwright_screenshot, mcp__playwright__playwright_get_visible_html, mcp__article_mcp__search_literature, mcp__article_mcp__get_article_details
---

# 🔧 数据整合格式化技能

## 🎯 核心功能定位

**高质量的分析报告需要高质量的数据支撑。**

数据整合格式化技能提供统一的数据处理流程，确保：
1. **Google Scholar数据** - 获取权威的学术影响力指标
2. **参考文献格式化** - 生成符合Nature期刊标准的引用
3. **数据完整性验证** - 确保所有数据的准确性和一致性
4. **格式标准化** - 提供统一的数据输出格式

## 🔄 统一数据处理流程

### 第一步：Google Scholar数据整合
```
思考1：如何高效获取专家的Google Scholar数据？
- 搜索策略：专家姓名 + 机构关键词
- 数据提取：H指数、i10指数、总引用数
- 作品分析：高被引论文排序和时间分布
- 合作网络：识别高频合作者和研究兴趣
```

#### 数据获取策略
- **搜索优化**：使用专家姓名+研究领域进行精确搜索
- **页面解析**：提取关键指标和作品列表
- **数据验证**：交叉验证引用数据和合作者信息
- **更新频率**：确保数据的时效性和准确性

#### 提取的数据项
- **基础指标**：H指数、i10指数、总引用数
- **作品分析**：高被引论文列表、引用趋势
- **合作网络**：主要合作者、合作关系强度
- **研究标签**：自动识别的研究兴趣关键词
- **时间分布**：发表论文的时间模式和趋势

### 第二步：参考文献标准化处理
```
思考2：如何将文献数据转换为标准Nature格式？
- 作者格式：姓氏全拼+名字首字母
- 期刊缩写：符合Nature期刊标准
- 年份位置：在作者后或期刊后
- DOI/PMID：确保可验证链接
- 格式一致性：所有引用保持统一格式
```

#### Nature格式标准
```
期刊文章格式：
[1] Author, A. B. Title of article. J. Abbrev. Volume, pages (Year).

书籍格式：
[2] Author, A. B. Title of Book (Publisher, Year).

DOI/PMID添加：
https://pubmed.ncbi.nlm.nih.gov/PMID/
```

#### 自动化处理流程
- **作者格式化**：自动转换为姓氏+首字母格式
- **期刊缩写**：使用标准期刊缩写数据库
- **年份定位**：根据文献类型确定年份位置
- **链接生成**：自动添加PubMed/DOI链接
- **格式检查**：验证所有引用的格式一致性

### 第三步：数据整合与验证
```
思考3：如何确保不同来源数据的一致性？
- 交叉验证：文献数据库与Google Scholar数据对比
- 缺失处理：处理缺失数据和异常值
- 质量评估：评估数据的可靠性和完整性
- 格式统一：确保所有数据符合模板要求
```

#### 数据质量控制
- **完整性检查**：确保所有必需数据项都有值
- **一致性验证**：交叉验证不同数据源的信息
- **异常值处理**：识别和处理明显错误的数据
- **格式标准化**：统一所有数据的输出格式

## 📋 标准化输出格式

### Google Scholar数据输出
```json
{
  "scholar_metrics": {
    "h_index": 数字,
    "i10_index": 数字,
    "total_citations": 数字,
    "citation_trend": "上升/稳定/下降"
  },
  "top_publications": [
    {
      "title": "论文标题",
      "citations": 数字,
      "year": 年份,
      "journal": "期刊名称"
    }
  ],
  "collaboration_network": [
    {
      "name": "合作者姓名",
      "collaboration_count": 数字,
      "institution": "机构名称"
    }
  ],
  "research_interests": ["兴趣标签1", "兴趣标签2"]
}
```

### 参考文献输出
```
[1] Dawkins, R. The Selfish Gene (Oxford University Press, 1976).
[2] Hamilton, W.D. The genetical evolution of social behaviour. J. Theor. Biol. 7, 1–16 (1964). https://pubmed.ncbi.nlm.nih.gov/14115693/
[3] Wilson, E.O. Sociobiology: The New Synthesis (Harvard University Press, 1975).
```

### 数据质量报告
```json
{
  "data_quality": {
    "completeness_score": 数字,
    "consistency_score": 数字,
    "reliability_assessment": "高/中/低",
    "missing_data_items": ["缺失项列表"],
    "data_sources": ["来源1", "来源2"]
  }
}
```

## 🎯 技术实现特点

### 高效性优势
- **一站式处理**：避免多个工具切换的开销
- **批量处理**：支持大量文献的批量格式化
- **缓存机制**：避免重复的网络请求
- **并行处理**：同时进行多个数据源的获取

### 可靠性保障
- **错误处理**：完善的异常处理和恢复机制
- **数据验证**：多层次的数据质量检查
- **备用方案**：Google Scholar无法访问时的替代策略
- **重试机制**：网络请求失败时的自动重试

### 可扩展性设计
- **模块化结构**：数据获取和处理功能分离
- **配置灵活**：支持不同的输出格式要求
- **接口标准**：统一的数据输入输出接口
- **插件机制**：支持新的数据源扩展

## 🔍 使用限制和注意事项

### 技术限制
- **网络依赖**：需要稳定的网络连接访问外部数据源
- **反爬虫机制**：Google Scholar可能有访问频率限制
- **数据时效性**：外部数据可能存在更新延迟
- **格式变化**：外部网站结构变化可能影响数据提取

### 使用建议
- **合理使用频率**：避免过于频繁的数据请求
- **数据验证**：重要数据需要人工验证
- **备用数据源**：准备多个数据源以应对服务中断
- **合规使用**：遵守相关网站的使用条款

---

*这个技能整合了数据获取和格式化的完整流程，为专家分析报告提供高质量、标准化的数据支撑。*