173 lines
6.2 KiB
Markdown
173 lines
6.2 KiB
Markdown
---
|
||
name: 数据整合格式化技能
|
||
description: 专为专家分析报告生成而设计的数据整合与格式化技能。整合Google Scholar数据获取和Nature格式参考文献标准化,提供统一的数据处理流程,确保报告的数据完整性、格式规范性和可验证性。该技能避免了多个数据处理工具的切换,提供高效的一站式数据整合格式化服务。
|
||
allowed-tools: Read, Write, Edit, Bash, Task, mcp__playwright__playwright_navigate, mcp__playwright__playwright_get_visible_text, mcp__playwright__playwright_click, mcp__playwright__playwright_fill, mcp__playwright__playwright_evaluate, mcp__playwright__playwright_screenshot, mcp__playwright__playwright_get_visible_html, mcp__article_mcp__search_literature, mcp__article_mcp__get_article_details
|
||
---
|
||
|
||
# 🔧 数据整合格式化技能
|
||
|
||
## 🎯 核心功能定位
|
||
|
||
**高质量的分析报告需要高质量的数据支撑。**
|
||
|
||
数据整合格式化技能提供统一的数据处理流程,确保:
|
||
1. **Google Scholar数据** - 获取权威的学术影响力指标
|
||
2. **参考文献格式化** - 生成符合Nature期刊标准的引用
|
||
3. **数据完整性验证** - 确保所有数据的准确性和一致性
|
||
4. **格式标准化** - 提供统一的数据输出格式
|
||
|
||
## 🔄 统一数据处理流程
|
||
|
||
### 第一步:Google Scholar数据整合
|
||
```
|
||
思考1:如何高效获取专家的Google Scholar数据?
|
||
- 搜索策略:专家姓名 + 机构关键词
|
||
- 数据提取:H指数、i10指数、总引用数
|
||
- 作品分析:高被引论文排序和时间分布
|
||
- 合作网络:识别高频合作者和研究兴趣
|
||
```
|
||
|
||
#### 数据获取策略
|
||
- **搜索优化**:使用专家姓名+研究领域进行精确搜索
|
||
- **页面解析**:提取关键指标和作品列表
|
||
- **数据验证**:交叉验证引用数据和合作者信息
|
||
- **更新频率**:确保数据的时效性和准确性
|
||
|
||
#### 提取的数据项
|
||
- **基础指标**:H指数、i10指数、总引用数
|
||
- **作品分析**:高被引论文列表、引用趋势
|
||
- **合作网络**:主要合作者、合作关系强度
|
||
- **研究标签**:自动识别的研究兴趣关键词
|
||
- **时间分布**:发表论文的时间模式和趋势
|
||
|
||
### 第二步:参考文献标准化处理
|
||
```
|
||
思考2:如何将文献数据转换为标准Nature格式?
|
||
- 作者格式:姓氏全拼+名字首字母
|
||
- 期刊缩写:符合Nature期刊标准
|
||
- 年份位置:在作者后或期刊后
|
||
- DOI/PMID:确保可验证链接
|
||
- 格式一致性:所有引用保持统一格式
|
||
```
|
||
|
||
#### Nature格式标准
|
||
```
|
||
期刊文章格式:
|
||
[1] Author, A. B. Title of article. J. Abbrev. Volume, pages (Year).
|
||
|
||
书籍格式:
|
||
[2] Author, A. B. Title of Book (Publisher, Year).
|
||
|
||
DOI/PMID添加:
|
||
https://pubmed.ncbi.nlm.nih.gov/PMID/
|
||
```
|
||
|
||
#### 自动化处理流程
|
||
- **作者格式化**:自动转换为姓氏+首字母格式
|
||
- **期刊缩写**:使用标准期刊缩写数据库
|
||
- **年份定位**:根据文献类型确定年份位置
|
||
- **链接生成**:自动添加PubMed/DOI链接
|
||
- **格式检查**:验证所有引用的格式一致性
|
||
|
||
### 第三步:数据整合与验证
|
||
```
|
||
思考3:如何确保不同来源数据的一致性?
|
||
- 交叉验证:文献数据库与Google Scholar数据对比
|
||
- 缺失处理:处理缺失数据和异常值
|
||
- 质量评估:评估数据的可靠性和完整性
|
||
- 格式统一:确保所有数据符合模板要求
|
||
```
|
||
|
||
#### 数据质量控制
|
||
- **完整性检查**:确保所有必需数据项都有值
|
||
- **一致性验证**:交叉验证不同数据源的信息
|
||
- **异常值处理**:识别和处理明显错误的数据
|
||
- **格式标准化**:统一所有数据的输出格式
|
||
|
||
## 📋 标准化输出格式
|
||
|
||
### Google Scholar数据输出
|
||
```json
|
||
{
|
||
"scholar_metrics": {
|
||
"h_index": 数字,
|
||
"i10_index": 数字,
|
||
"total_citations": 数字,
|
||
"citation_trend": "上升/稳定/下降"
|
||
},
|
||
"top_publications": [
|
||
{
|
||
"title": "论文标题",
|
||
"citations": 数字,
|
||
"year": 年份,
|
||
"journal": "期刊名称"
|
||
}
|
||
],
|
||
"collaboration_network": [
|
||
{
|
||
"name": "合作者姓名",
|
||
"collaboration_count": 数字,
|
||
"institution": "机构名称"
|
||
}
|
||
],
|
||
"research_interests": ["兴趣标签1", "兴趣标签2"]
|
||
}
|
||
```
|
||
|
||
### 参考文献输出
|
||
```
|
||
[1] Dawkins, R. The Selfish Gene (Oxford University Press, 1976).
|
||
[2] Hamilton, W.D. The genetical evolution of social behaviour. J. Theor. Biol. 7, 1–16 (1964). https://pubmed.ncbi.nlm.nih.gov/14115693/
|
||
[3] Wilson, E.O. Sociobiology: The New Synthesis (Harvard University Press, 1975).
|
||
```
|
||
|
||
### 数据质量报告
|
||
```json
|
||
{
|
||
"data_quality": {
|
||
"completeness_score": 数字,
|
||
"consistency_score": 数字,
|
||
"reliability_assessment": "高/中/低",
|
||
"missing_data_items": ["缺失项列表"],
|
||
"data_sources": ["来源1", "来源2"]
|
||
}
|
||
}
|
||
```
|
||
|
||
## 🎯 技术实现特点
|
||
|
||
### 高效性优势
|
||
- **一站式处理**:避免多个工具切换的开销
|
||
- **批量处理**:支持大量文献的批量格式化
|
||
- **缓存机制**:避免重复的网络请求
|
||
- **并行处理**:同时进行多个数据源的获取
|
||
|
||
### 可靠性保障
|
||
- **错误处理**:完善的异常处理和恢复机制
|
||
- **数据验证**:多层次的数据质量检查
|
||
- **备用方案**:Google Scholar无法访问时的替代策略
|
||
- **重试机制**:网络请求失败时的自动重试
|
||
|
||
### 可扩展性设计
|
||
- **模块化结构**:数据获取和处理功能分离
|
||
- **配置灵活**:支持不同的输出格式要求
|
||
- **接口标准**:统一的数据输入输出接口
|
||
- **插件机制**:支持新的数据源扩展
|
||
|
||
## 🔍 使用限制和注意事项
|
||
|
||
### 技术限制
|
||
- **网络依赖**:需要稳定的网络连接访问外部数据源
|
||
- **反爬虫机制**:Google Scholar可能有访问频率限制
|
||
- **数据时效性**:外部数据可能存在更新延迟
|
||
- **格式变化**:外部网站结构变化可能影响数据提取
|
||
|
||
### 使用建议
|
||
- **合理使用频率**:避免过于频繁的数据请求
|
||
- **数据验证**:重要数据需要人工验证
|
||
- **备用数据源**:准备多个数据源以应对服务中断
|
||
- **合规使用**:遵守相关网站的使用条款
|
||
|
||
---
|
||
|
||
*这个技能整合了数据获取和格式化的完整流程,为专家分析报告提供高质量、标准化的数据支撑。* |