您现在位于:  首页  → 计算机  → 人工智能&搜索引擎  → Document Automatic Categorization - 文档自动分类
Document Automatic Categorization - 文档自动分类 (原创)
汤锡文 2006.11.01

  文档自动分类技术研究
  汤锡文

  文档自动分类技术是人工智能的一个分支,相信在未来的5-10年内,在互联网上会得到较大的发展和应用。

  如果待归类文档存在有限目录(如:运用到互助系统问题分类中),需要通过如下步骤来实现:
  一、根据原始词典(比如:同义词词林)整理成基于MySQL的词典数据库;
  二、实现对词典树的管理(包括增加、删除、修改、移动、词性标注、词性继承);
  三、对词典数据库,进行词性标注;
  四、根据词典数据库,对句子进行分词;
  五、对分词后的结果进行词性标注;
  六、对分词结果进行专名识别;
  七、提取句子的中心词(即主题,提取名词、动词);
  八、建立词典树与现有类目的对应关系;
  九、实现文档自动分类;

  如果待归类文档不存在限定的类目(如:运用到论坛文章自动聚类),那么即是文档自动聚类,需要通过如下步骤来实现:
  一、根据原始词典(比如:同义词词林)整理成基于MySQL的词典数据库;
  二、实现对词典树的管理(包括增加、删除、修改、移动、词性标注、词性继承);
  三、对词典数据库,进行词性标注;
  四、根据词典数据库,对句子进行分词;
  五、对分词后的结果进行词性标注;
  六、对分词结果进行专名识别;
  七、提取句子的中心词(即主题,提取名词、动词);
  八、减少词典树的类目层数,将具有相同中心词的主题归并(或者计算主题与样本主题之间的相似度),并建立与缩微词典树的对应关系;
  九、实现文档自动聚类;

  由此得知,两种技术,只在第八步具有差异性。
http://www.tangtang.org/computer/artificial-intelligence-and-search-engine/document-automatic-categorization.html

对“Document Automatic Categorization - 文档自动分类”发表评论  


您是否还没有 注册 或还没有 登陆 本站?!
 
CopyRight by tangtang.org 2004-2005┋ 菜子园 ┋ TOP