稿件标题: | DSTFA分布式短文本过滤算法 |
稿件作者: | 沈竞,蒋侨 |
栏目名称: | 其他研究 |
关键词: | 文本过滤; 特征扩展; 关键度; 短文本; 分布式过滤 |
文章摘要: | 针对海量短文本数据, 本文基于非结构化数据挖掘平台 U I MA A S , 设计了一种高效分布式文本过滤算法( DSTFA ) 。在该算法中, 从特征扩展出发, 结合词语关键度, 提出了一种新型的文本向量和用户模板相似度计算方法。实验证明, 与传统的短文本过滤算法相比, DSTFA算法能提高短文本过滤准确率约69 %, 同时系统运行速度随着实例部署个数成线性增长, 体现出了良好的可扩展性。 |
刊期名称: | 2011年10期 |
出版时间: | 2011年10月 |
上线时间: | 2011年10月28日 |
浏览次数: | 3216 |
下载次数: | 1089 |
免费阅读PDF |