稿件标题: | 基于Timed PageRank的聚焦爬虫优化研究 |
稿件作者: | 李东 1,王虎强 2 |
栏目名称: | 基础理论与应用研究 |
关键词: | 传统网络爬虫;PageRank算法;聚焦爬虫; Timed PageRank改进算法 |
文章摘要: | 传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率。 |
引用本文格式: | 李东,王虎强.基于Timed PageRank的聚焦爬虫优化研究 [J].四川兵工学报,2015(1):141-144. LI Dong, WANG Hu qiang.Optimization Research on Focused Crawler Based on Improved Timed PageRank Algorithm [J].Journal of Sichuan Ordnance,2015(1):141-144. |
刊期名称: | 2015年01期 |
出版时间: | 2015年1月 |
上线时间: | 2015年1月28日 |
浏览次数: | 2993 |
下载次数: | 1034 |
免费阅读PDF |