如题所述
感谢回答。实现的技术难吗?可以自己做个小版本的吗?
基础功能很简单,就是分析每个url的html页面,提取新的url。操作的时候会有很多实际问题,比如网页量是巨大的,你可能需要根据需求筛选哪些url需要进一步爬行;再比如很多站点对短时间内高频的访问是有限制的,你可能还需要做抓取的压力控制等等。具体实现,还是要看你的需求吧。
就是实验、研究性质的呢?
那不麻烦啊,找点搜索引擎入门的书来看看,就可以了
感谢回答。