在线阅读 --自然科学版 2018年3期《基于coroutine模型的网络爬虫设计与实现》
基于coroutine模型的网络爬虫设计与实现--[在线阅读]
仇晶1,2, 丁任霜2, 张光华2, 张红斌2
1. 广州大学 网络空间先进技术研究院, 广东 广州 510006;
2. 河北科技大学 信息科学与工程系, 河北 石家庄 050026
起止页码: 205--210页
DOI: 10.13763/j.cnki.jhebnu.nse.2018.03.004
摘要
网络爬虫在中文信息处理中被大量使用,根据待处理的问题定向爬取相关领域的数据,为后续中文信息处理提供基础.传统多线程模型在处理高并发和大量I/O阻塞操作时,存在较为明显的限制和不足.针对以上问题,提出了一种基于coroutine模型的解决方案.从coroutine的基本原理和实现方法上作了较为详细的阐述,并给出基于coroutine网络爬虫的完整实现.实验表明,该方案能够有效地降低系统负荷,提高爬虫的爬取效率.

Design and Implementation of Web Crawlers Based on the Coroutine Model
QIU Jing1,2, DING Renshuang2, ZHANG Guanghua2, ZHANG Hongbin2
1. Advanced Technology Research Institute of Cyberspace, Guangzhou University, Guangdong Guangzhou 510006, China;
2. School of Informations and Engineering, Hebei University of Science and Technology, Hebei Shijiazhuang 050026, China
Abstract:
Web crawler is widely used in Chinese information processing.According to the problem to be dealt with,crawling related domains data,it provides the basis for subsequent Chinese information processing.The traditional multi-threaded model has obvious limitations and deficiencies when dealing with high concurrency and large number of I/O blocking operations.To solve the above problems,this paper proposes a solution based on the coroutine model.In this paper,the basic principles and implementation methods of coroutine are discussed in detail,then give a complete implementation of web crawler based on coroutine.Experimental results had shown that our scheme can effectively reduce system load and improve web crawler crawling efficiency.

收稿日期: 2017-09-20
基金项目: 河北省自然科学基金(F2012208016)

参考文献:
[1]王锋,王伟,张璟,等.基于Linux的网络爬虫系统[J].计算机工程,2010(1):280-282.doi:10.3969/j.issn.1000-3428.2010.01.097
[2]化柏林.基于NLP的知识抽取系统架构研究[J].现代图书情报技术,2007(10):38-41.doi:10.3969/j.issn.1003-3513.2007.10.009
[3]张俐,李晶皎,胡明涵,等.中文WordNet的研究及实现[J].东北大学学报(自然科学版),2003(4):327-329.doi:10.3321/j.issn:1005-3026.2003.04.006
[4]李晓明,闫鸿飞,王继民.搜索引擎:原理、技术与系统[M].北京:科学出版社,2012.
[5]尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1119.
[6]周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29.doi:10.3969/j.issn.1002-137X.2009.08.007
[7]CHRIS S,EDWARD A L.The Coroutine Model of Computation[EB/OL].Berlin:Springer,(2012-09-30)[2015-01-10].http://www.dagstuhl.de/mat/Files/13/13471/13471.ShaveChris
[8]朱文琰,郑肖雄.基于正则表达式构建学习的网页信息抽取方法[J].计算机应用与软件,2017(2):14-19.doi:10.3969/j.issn.1000-386x.2017.02.003
[9]杨济运,刘建勋,姜磊,等.基于协程模型的分布式爬虫框架[J].计算技术与自动化,2014(3):126-133.doi:10.3969/j.issn.1003-6199.2014.03.030.