科研方法 | 论文中最普遍出现的10个无效关键词,你用过吗?

征稿
近年来 , 中国学者每年发表的科技论文有数百万篇 , 如何在浩瀚的论文海洋中脱颖而出 , 吸引读者的注意力 , 提高论文传播力和显示度 , 关键词起着十分重要的作用 。关键词是能够明确表达学术论文的主体研究内容或中心思想的词或词组 , 其最初是为了满足计算机系统编制各种文献索引的需要而产生 。作为文献检索的重要依据 , 关键词应具有专指性、全面性、规范性等特点 。但实际情况是 , 科技论文中存在大量的含义宽泛、无实质内容的无效关键词 , 如“应用”“分析”“问题”“研究”等等 , 大大降低了科技论文的检索效率和传播效果 。此前 , 已有学者对无效关键词展开研究 , 但其主要针对高校社科学报论文以及农业科技类论文 , 针对更广泛领域内的科技论文中常见无效关键词的计量学研究较少 。
为此 , 本文以中国知网为文献来源数据库 , 结合文献[3-5]及编校实践经验 , 选取10个科技论文中出现频率较高、指向性不强、含义空泛的关键词 , 分别检索其在2015—2019年发表的科技论文中的出现频率 , 分析其年度分布规律及关键词共现网络 。随后分别限定“大学学报”和“学院学报”以及“博士论文”和“硕士论文”(即博士和硕士的学位论文)为文献来源 , 对比分析常见无效关键词在不同类型期刊以及不同学历作者所著科技论文中的词频分布 。最后分析常见无效关键词产生的原因及应对措施 , 以期提高科技论文作者和审读编校人员对关键词标引质量的认识 。
1.检索范围和方法
检索范围:文献来源限定为中国知网“基础科学”“工程科技Ⅰ辑”“工程科技Ⅱ辑”“农业科技”“医药卫生科技”“信息科技”6类目录下的期刊、会议、学位论文等(即本文所指科技论文) , “大学学报”和“学院学报” , “博士论文”和“硕士论文”;文献语种限定为中文;关键词限定为“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”;发表时间限定为2015-01-01—2019-1-31 。
检索方法:以“关键词+发表时间”“关键词+发表时间+文献来源”为组合检索条件 , 在中国知网6大类科技文献目录下进行检索 , 获得各关键词在不同检索条件下的词频分布 。为确保检索结果的有效性 , 每检索一次均随机选取若干篇论文 , 并核对这些论文中是否包含目标关键词 。最后 , 将所得结果输入Excel软件进行统计分析(检索时间为2020-03-07—03-09) 。
2.无效关键词的定义和分类
2.1无效关键词的定义
无效关键词是指词义宽泛、不能准确传达论文主题内容、不利于检索的词或词组 , 或是未经公认的缩写词等 。它们与论文主题相关性不大 , 不能反映单篇科技论文的特点 , 不具检索价值 。
2.2无效关键词的分类
无效关键词的分类目前尚无统一标准 。本文根据文献[3.6]将无效关键词分为以下3类:1)表示国别或地域的泛而不专的名词 , 如“中国”“美国”“德国”等;2)“不能表示所属学科专用概念的不足以反映实质内容的词” , 如“方法”“问题”“试验”“研究”“分析”等;3)加了限定词的复杂短语或是未经公认的缩略词等 , 如“新型甘蓝型油菜品种”“AP”等 , 它们虽然能反映文章主题 , 但不利于计算机检索、识别 。
3.10个无效关键词计量学分析
3.1不同年份科技论文中10个无效关键词频率分布
结合已有研究及编校实践经验 , 本文针对第2类无效关键词展开研究 。分别选取“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”这10个科技论文中出现频率较高的无效关键词 , 限定文献来源为科技论文 , 在中国知网进行检索 。10个无效关键词在2015—2019年发表的科技论文中的频率(以检索记录表示)及其累计词频(10个无效关键词检索记录条数之和与当年发表的科技论文总篇数的比值)分布如表1所示 。由表1可见 , 整体看 , 不同年度无效关键词频率分布相对稳定 , 按检索记录数排序 , 从高到低依次为“应用”“对策”“问题”“管理”“设 计”“措施”“影响”“现状”“研究”“发展” , 呈现出明显规律性 。2017年 , 科技论文发表总量为2 017 727篇 , 这10个无效关键词检索记录之和达82 732条(未排除有2个或多个无效关键词同时出现在同一篇科技论文中的情况) , 每100篇文章里就有约4篇文章的关键词里包含这10个无效关键词之一 , 可见无效关键词的使用相当普遍 。2015—2019年 , “应用”这一关键词出现频率最高 , 且其检索记录在2017和2018年分别达20 267和20 203条 , 明显高于其他9个无效关键词的出现频率 , 说明科技论文作者选择“应用”作为关键词的比例较高 。纵向来看 , 2015—2019年这10个无效关键词检索条数随年度的变化并无明显规律性 , 累计词频范围为3.7%~4.1% , 其中2015和2019年的无效关键词累计词频均为3.7%左右(表1) , 说明科技论文作者并未有意地减少无效关键词的使用 , 无效关键词将会伴随着科技论文作者的写作习惯而长期稳定地存在 。