6.2 KiB
6.2 KiB
name, description, allowed-tools
| name | description | allowed-tools |
|---|---|---|
| 数据整合格式化技能 | 专为专家分析报告生成而设计的数据整合与格式化技能。整合Google Scholar数据获取和Nature格式参考文献标准化,提供统一的数据处理流程,确保报告的数据完整性、格式规范性和可验证性。该技能避免了多个数据处理工具的切换,提供高效的一站式数据整合格式化服务。 | Read, Write, Edit, Bash, Task, mcp__playwright__playwright_navigate, mcp__playwright__playwright_get_visible_text, mcp__playwright__playwright_click, mcp__playwright__playwright_fill, mcp__playwright__playwright_evaluate, mcp__playwright__playwright_screenshot, mcp__playwright__playwright_get_visible_html, mcp__article_mcp__search_literature, mcp__article_mcp__get_article_details |
🔧 数据整合格式化技能
🎯 核心功能定位
高质量的分析报告需要高质量的数据支撑。
数据整合格式化技能提供统一的数据处理流程,确保:
- Google Scholar数据 - 获取权威的学术影响力指标
- 参考文献格式化 - 生成符合Nature期刊标准的引用
- 数据完整性验证 - 确保所有数据的准确性和一致性
- 格式标准化 - 提供统一的数据输出格式
🔄 统一数据处理流程
第一步:Google Scholar数据整合
思考1:如何高效获取专家的Google Scholar数据?
- 搜索策略:专家姓名 + 机构关键词
- 数据提取:H指数、i10指数、总引用数
- 作品分析:高被引论文排序和时间分布
- 合作网络:识别高频合作者和研究兴趣
数据获取策略
- 搜索优化:使用专家姓名+研究领域进行精确搜索
- 页面解析:提取关键指标和作品列表
- 数据验证:交叉验证引用数据和合作者信息
- 更新频率:确保数据的时效性和准确性
提取的数据项
- 基础指标:H指数、i10指数、总引用数
- 作品分析:高被引论文列表、引用趋势
- 合作网络:主要合作者、合作关系强度
- 研究标签:自动识别的研究兴趣关键词
- 时间分布:发表论文的时间模式和趋势
第二步:参考文献标准化处理
思考2:如何将文献数据转换为标准Nature格式?
- 作者格式:姓氏全拼+名字首字母
- 期刊缩写:符合Nature期刊标准
- 年份位置:在作者后或期刊后
- DOI/PMID:确保可验证链接
- 格式一致性:所有引用保持统一格式
Nature格式标准
期刊文章格式:
[1] Author, A. B. Title of article. J. Abbrev. Volume, pages (Year).
书籍格式:
[2] Author, A. B. Title of Book (Publisher, Year).
DOI/PMID添加:
https://pubmed.ncbi.nlm.nih.gov/PMID/
自动化处理流程
- 作者格式化:自动转换为姓氏+首字母格式
- 期刊缩写:使用标准期刊缩写数据库
- 年份定位:根据文献类型确定年份位置
- 链接生成:自动添加PubMed/DOI链接
- 格式检查:验证所有引用的格式一致性
第三步:数据整合与验证
思考3:如何确保不同来源数据的一致性?
- 交叉验证:文献数据库与Google Scholar数据对比
- 缺失处理:处理缺失数据和异常值
- 质量评估:评估数据的可靠性和完整性
- 格式统一:确保所有数据符合模板要求
数据质量控制
- 完整性检查:确保所有必需数据项都有值
- 一致性验证:交叉验证不同数据源的信息
- 异常值处理:识别和处理明显错误的数据
- 格式标准化:统一所有数据的输出格式
📋 标准化输出格式
Google Scholar数据输出
{
"scholar_metrics": {
"h_index": 数字,
"i10_index": 数字,
"total_citations": 数字,
"citation_trend": "上升/稳定/下降"
},
"top_publications": [
{
"title": "论文标题",
"citations": 数字,
"year": 年份,
"journal": "期刊名称"
}
],
"collaboration_network": [
{
"name": "合作者姓名",
"collaboration_count": 数字,
"institution": "机构名称"
}
],
"research_interests": ["兴趣标签1", "兴趣标签2"]
}
参考文献输出
[1] Dawkins, R. The Selfish Gene (Oxford University Press, 1976).
[2] Hamilton, W.D. The genetical evolution of social behaviour. J. Theor. Biol. 7, 1–16 (1964). https://pubmed.ncbi.nlm.nih.gov/14115693/
[3] Wilson, E.O. Sociobiology: The New Synthesis (Harvard University Press, 1975).
数据质量报告
{
"data_quality": {
"completeness_score": 数字,
"consistency_score": 数字,
"reliability_assessment": "高/中/低",
"missing_data_items": ["缺失项列表"],
"data_sources": ["来源1", "来源2"]
}
}
🎯 技术实现特点
高效性优势
- 一站式处理:避免多个工具切换的开销
- 批量处理:支持大量文献的批量格式化
- 缓存机制:避免重复的网络请求
- 并行处理:同时进行多个数据源的获取
可靠性保障
- 错误处理:完善的异常处理和恢复机制
- 数据验证:多层次的数据质量检查
- 备用方案:Google Scholar无法访问时的替代策略
- 重试机制:网络请求失败时的自动重试
可扩展性设计
- 模块化结构:数据获取和处理功能分离
- 配置灵活:支持不同的输出格式要求
- 接口标准:统一的数据输入输出接口
- 插件机制:支持新的数据源扩展
🔍 使用限制和注意事项
技术限制
- 网络依赖:需要稳定的网络连接访问外部数据源
- 反爬虫机制:Google Scholar可能有访问频率限制
- 数据时效性:外部数据可能存在更新延迟
- 格式变化:外部网站结构变化可能影响数据提取
使用建议
- 合理使用频率:避免过于频繁的数据请求
- 数据验证:重要数据需要人工验证
- 备用数据源:准备多个数据源以应对服务中断
- 合规使用:遵守相关网站的使用条款
这个技能整合了数据获取和格式化的完整流程,为专家分析报告提供高质量、标准化的数据支撑。