文档自动分类技术研究 汤锡文
文档自动分类技术是人工智能的一个分支,相信在未来的5-10年内,在互联网上会得到较大的发展和应用。
如果待归类文档存在有限目录(如:运用到互助系统问题分类中),需要通过如下步骤来实现: 一、根据原始词典(比如:同义词词林)整理成基于MySQL的词典数据库; 二、实现对词典树的管理(包括增加、删除、修改、移动、词性标注、词性继承); 三、对词典数据库,进行词性标注; 四、根据词典数据库,对句子进行分词; 五、对分词后的结果进行词性标注; 六、对分词结果进行专名识别; 七、提取句子的中心词(即主题,提取名词、动词); 八、建立词典树与现有类目的对应关系; 九、实现文档自动分类;
如果待归类文档不存在限定的类目(如:运用到论坛文章自动聚类),那么即是文档自动聚类,需要通过如下步骤来实现: 一、根据原始词典(比如:同义词词林)整理成基于MySQL的词典数据库; 二、实现对词典树的管理(包括增加、删除、修改、移动、词性标注、词性继承); 三、对词典数据库,进行词性标注; 四、根据词典数据库,对句子进行分词; 五、对分词后的结果进行词性标注; 六、对分词结果进行专名识别; 七、提取句子的中心词(即主题,提取名词、动词); 八、减少词典树的类目层数,将具有相同中心词的主题归并(或者计算主题与样本主题之间的相似度),并建立与缩微词典树的对应关系; 九、实现文档自动聚类;
由此得知,两种技术,只在第八步具有差异性。 http://www.tangtang.org/computer/artificial-intelligence-and-search-engine/document-automatic-categorization.html
|
|