Files
gh-gqy20-cc-plugins-plugins…/skills/data-integration-formatting.md
2025-11-29 18:28:50 +08:00

173 lines
6.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
name: 数据整合格式化技能
description: 专为专家分析报告生成而设计的数据整合与格式化技能。整合Google Scholar数据获取和Nature格式参考文献标准化提供统一的数据处理流程确保报告的数据完整性、格式规范性和可验证性。该技能避免了多个数据处理工具的切换提供高效的一站式数据整合格式化服务。
allowed-tools: Read, Write, Edit, Bash, Task, mcp__playwright__playwright_navigate, mcp__playwright__playwright_get_visible_text, mcp__playwright__playwright_click, mcp__playwright__playwright_fill, mcp__playwright__playwright_evaluate, mcp__playwright__playwright_screenshot, mcp__playwright__playwright_get_visible_html, mcp__article_mcp__search_literature, mcp__article_mcp__get_article_details
---
# 🔧 数据整合格式化技能
## 🎯 核心功能定位
**高质量的分析报告需要高质量的数据支撑。**
数据整合格式化技能提供统一的数据处理流程,确保:
1. **Google Scholar数据** - 获取权威的学术影响力指标
2. **参考文献格式化** - 生成符合Nature期刊标准的引用
3. **数据完整性验证** - 确保所有数据的准确性和一致性
4. **格式标准化** - 提供统一的数据输出格式
## 🔄 统一数据处理流程
### 第一步Google Scholar数据整合
```
思考1如何高效获取专家的Google Scholar数据
- 搜索策略:专家姓名 + 机构关键词
- 数据提取H指数、i10指数、总引用数
- 作品分析:高被引论文排序和时间分布
- 合作网络:识别高频合作者和研究兴趣
```
#### 数据获取策略
- **搜索优化**:使用专家姓名+研究领域进行精确搜索
- **页面解析**:提取关键指标和作品列表
- **数据验证**:交叉验证引用数据和合作者信息
- **更新频率**:确保数据的时效性和准确性
#### 提取的数据项
- **基础指标**H指数、i10指数、总引用数
- **作品分析**:高被引论文列表、引用趋势
- **合作网络**:主要合作者、合作关系强度
- **研究标签**:自动识别的研究兴趣关键词
- **时间分布**:发表论文的时间模式和趋势
### 第二步:参考文献标准化处理
```
思考2如何将文献数据转换为标准Nature格式
- 作者格式:姓氏全拼+名字首字母
- 期刊缩写符合Nature期刊标准
- 年份位置:在作者后或期刊后
- DOI/PMID确保可验证链接
- 格式一致性:所有引用保持统一格式
```
#### Nature格式标准
```
期刊文章格式:
[1] Author, A. B. Title of article. J. Abbrev. Volume, pages (Year).
书籍格式:
[2] Author, A. B. Title of Book (Publisher, Year).
DOI/PMID添加
https://pubmed.ncbi.nlm.nih.gov/PMID/
```
#### 自动化处理流程
- **作者格式化**:自动转换为姓氏+首字母格式
- **期刊缩写**:使用标准期刊缩写数据库
- **年份定位**:根据文献类型确定年份位置
- **链接生成**自动添加PubMed/DOI链接
- **格式检查**:验证所有引用的格式一致性
### 第三步:数据整合与验证
```
思考3如何确保不同来源数据的一致性
- 交叉验证文献数据库与Google Scholar数据对比
- 缺失处理:处理缺失数据和异常值
- 质量评估:评估数据的可靠性和完整性
- 格式统一:确保所有数据符合模板要求
```
#### 数据质量控制
- **完整性检查**:确保所有必需数据项都有值
- **一致性验证**:交叉验证不同数据源的信息
- **异常值处理**:识别和处理明显错误的数据
- **格式标准化**:统一所有数据的输出格式
## 📋 标准化输出格式
### Google Scholar数据输出
```json
{
"scholar_metrics": {
"h_index": ,
"i10_index": ,
"total_citations": ,
"citation_trend": "上升/稳定/下降"
},
"top_publications": [
{
"title": "论文标题",
"citations": ,
"year": ,
"journal": "期刊名称"
}
],
"collaboration_network": [
{
"name": "合作者姓名",
"collaboration_count": ,
"institution": "机构名称"
}
],
"research_interests": ["兴趣标签1", "兴趣标签2"]
}
```
### 参考文献输出
```
[1] Dawkins, R. The Selfish Gene (Oxford University Press, 1976).
[2] Hamilton, W.D. The genetical evolution of social behaviour. J. Theor. Biol. 7, 116 (1964). https://pubmed.ncbi.nlm.nih.gov/14115693/
[3] Wilson, E.O. Sociobiology: The New Synthesis (Harvard University Press, 1975).
```
### 数据质量报告
```json
{
"data_quality": {
"completeness_score": ,
"consistency_score": ,
"reliability_assessment": "高/中/低",
"missing_data_items": ["缺失项列表"],
"data_sources": ["来源1", "来源2"]
}
}
```
## 🎯 技术实现特点
### 高效性优势
- **一站式处理**:避免多个工具切换的开销
- **批量处理**:支持大量文献的批量格式化
- **缓存机制**:避免重复的网络请求
- **并行处理**:同时进行多个数据源的获取
### 可靠性保障
- **错误处理**:完善的异常处理和恢复机制
- **数据验证**:多层次的数据质量检查
- **备用方案**Google Scholar无法访问时的替代策略
- **重试机制**:网络请求失败时的自动重试
### 可扩展性设计
- **模块化结构**:数据获取和处理功能分离
- **配置灵活**:支持不同的输出格式要求
- **接口标准**:统一的数据输入输出接口
- **插件机制**:支持新的数据源扩展
## 🔍 使用限制和注意事项
### 技术限制
- **网络依赖**:需要稳定的网络连接访问外部数据源
- **反爬虫机制**Google Scholar可能有访问频率限制
- **数据时效性**:外部数据可能存在更新延迟
- **格式变化**:外部网站结构变化可能影响数据提取
### 使用建议
- **合理使用频率**:避免过于频繁的数据请求
- **数据验证**:重要数据需要人工验证
- **备用数据源**:准备多个数据源以应对服务中断
- **合规使用**:遵守相关网站的使用条款
---
*这个技能整合了数据获取和格式化的完整流程,为专家分析报告提供高质量、标准化的数据支撑。*