# dtnlp **Repository Path**: beforevercc/dtnlp ## Basic Information - **Project Name**: dtnlp - **Description**: 自然语言处理 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2018-03-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README dlnp是使用Java语言开发一套中文自然语言处理算法包,算法包按照语言表达粒度区分: # 一、篇章级【chapter】 ## 单文档: - 主题抽取:LDA - 页面质量分析: - 自动摘要:基于统计的,基于理解的,基于信息抽取,基于结构 - 关键词提取: ## 多文档: - 聚类 - 分类 - 特征提取 - 舆情监控 # 二、句子级:【sentence】 - 语法分析 - 语义分析 - 意图分析 - 情感分析 - 句子关系:并列关系、承接关系、递进关系、选择关系、转折关系、假设关系、因果关系、条件关系、解说关系、目的关系. # 三、短语级:【phrase】 ## 结构分析 - Term重要性 - 成分分析 - 组块分析 ## 变形变换:统一改写框架 ## 短串分类 - Query需求分类 - 主题分类 # 四、词汇级【word】 ## 粒度控制 - 基本分词:最大前相匹配,最小前向匹配,N最短路径 - 未登录词识别:基于后缀数组的新词发现 - 词内部成分分析 ## 属性标注 - 专名分类 - 需求词标记 - 词性标注 - 序列注音 - 动态属性:热度,突发度,紧密度 ## 关系模型 - 搭配关系 - 词相似度:word2vec - 语言模型 - Ontology(分类)本体 # 参考项目: - ansj - hanlp - word2vec