分词技术(分词技术会分散权重)

zhangyang 2022-04-22 阅读:48
  

【序言】

  ,最近刚入职。为了对公司有一个全面的了解,我爬取了公司官网和博客的所有内容,希望能逐步了解公司的发展历程,项目案例,体验公司的文化,增强自己的主人翁意识。

  信息抓取后,统计分析字数,发现有近70万字。考虑到该信息集来源单一,内容主题关联性强,我们希望对这70万条文本进行高频关键词统计,从而在短时间内掌握文本的核心内容。

  参考相关领域朋友的意见,结合在搜索引擎中获得的知识,我们最终选择了基于node.js的中文分词方案,采用的关键技术是Node.js的分词模块,基于盘古分词组件中的词库,算法设计也部分参考了盘古分词组件中的相关算法。

【实现步骤】

  首先通过node.js的npm命令加载段模块,代码如下:

  npm安装段

  模块加载后,可以在这个文件夹里写js代码进行中文分词。代码如下所示

  varSegment=require('。/index ')。段;

  var POSTAG=require('。/index ')。POSTAG

  var fs=require(' fs ');

  //定义输入文件的位置

  var text=fs.readFileSync('。/text.txt ',' utf8 ');

  var Segment=new Segment();

  segment . usedefault();

  var result=segment . do segment(text,{

  simple: true,

  stripPunctuation: true

  });

  //定义输出文件的位置

  FS。WriteFilesync('。/text分词统计. txt ',结果)

  不到两分钟就分割了几百万字。接下来要做的就是统计词频,提取高频关键词。考虑到时间有限,我没有花经验去研究这个模块这个功能的实现。而是直接用excel的分类汇总功能统计词频,手动提取高频词。在分词的基础上,这一步不需要太多的精力。

【总结】

  使用基于node.js的segment中文分词模块,可以在短时间内切分几百万个汉字。结合excel的分类汇总功能,可以实现高频词汇的快速统计,最终实现百万文本核心内容的快速掌握。

  要想通过中文分词技术快速掌握文本的核心内容,需要保证两个前提条件:一是文本的主题要基本一致,二是文本的幅度要尽可能大。

  使用node.js做大量分析计算时,经常会出现内存溢出的情况。可以关注网友给出的相关解决方案,防止节目意外终止。

评论(0)

二维码