基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究 |
| |
引用本文: | 潘思铭,巫邵诚.基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究[J].情报探索,2023(7):1-10. |
| |
作者姓名: | 潘思铭 巫邵诚 |
| |
作者单位: | 福州大学经济与管理学院 |
| |
摘 要: | 目的/意义]旨在为跨语言文本聚类研究提供参考。方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。
|
关 键 词: | 跨语言 文本聚类 文本相似度 汉语 俄语 |
|
|