以下为《爬虫技术研究论文笔记》的无排版文字预览,完整内容请下载
论文笔记
暂缺
主题爬虫技术研究综
实际上就是研究如何更好的提取与主题相关信息的技术:既要速度快又要相关度非常的高。
引言部分
阐述通用搜索引擎的缺点,推出垂直搜索引擎的出现(主题爬虫是核心)
如何使爬虫更精准、更快速的抓取信息,成为爬虫领域中的一个重要研究方向
爬虫实现原理
/
主题网络爬虫的出现和网络爬虫系统
主题网络爬虫的出现:通用网络爬虫(也称全网爬虫:爬取整个互联网的信息),没有办法准确提供用户特定的需求。突出点:有目标的定义、无关链接的过滤、下一步爬取URL 地址的选取。
网络爬虫系统分为:网页获取、网页过滤、网页存储三大模块。主题爬虫只是增加了网页分析模块,这个模块用于计算网页相似度,使爬虫系统尽可能多地筛选出和主题相关页面,减少无关页面,从而使主题爬虫返回的结果具有较高的准确率。(改造)
/
网页解析中bs4或者xpath用于比较简单的网页,复杂的网页要用re提取信息
关系型数据库MySQL、SQLServer;一种是非关系型的数据库mongodb、ssdb、hbase
写入数据库有两种思路,一种是等所有的数据都爬完,集中一次向量化清洗,一次性入库;另一种是爬一次数据清洗一次就入库。一般采用第二种。
主题爬虫的研究方向
基于网页内容的主题爬虫
网页中不同的内容信息反映网页不同的含义,标题、关键词、文本内容等都是网页中最具有代表性的信息。
基于链接分析的主题爬虫
传统的基于网页内容评价的 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 爬行策略模块在获取网页之前,首先按照某种策略将待爬行的网页进行排序,然后选取与主题相关、排序靠前的优先爬行。爬取策略主要是判断页面与主题是否相关,若采集的页面与主题相关则继续执行,否则放入相关队列。
网页的抓取策略主要由以下几种策略组成:(1)深度优先搜索策略;(2)广度优先搜索策略;(3)最佳优先搜索策略。主题爬虫主要采用的是最佳优先搜索策略
该策略是通过某种特定的算法来计算URL 与主题的相关性,并选取结果最优的
URL 进行爬取。因此,主题爬虫的研究难点就在于如何评价页面的价值。
如何评价网页的价值(***)
(1)基于网页内容的评价策略;(2)基于链接结构的评价策略;(3)基于综合价值的爬行策略(论文作者提出将前两种结合起来,论文创新)。
这种方法结合最优:在保障网页的主题相关性的前提下,首先根据网页内容对URL序列进行筛选,然后再采用基于链接结构的评价策略和基于网页内容的评价策略相结合的数学模型来对筛选后的URL序列进行排序
主题爬虫的较优评价方法
(1)分类器方法;(2)检索系统方法;(3)平均相似度方法
为了避免采用最佳优先搜索策略在爬行进行之前陷入局部最优解而达不到全局最优解的情况,从而导致爬行的全过程中效率较低的情况,在主题爬虫搜索过程中,应采用“启发式”搜索策略,即在选择网页链接时除开选择最优链接之外,还需以某种策略选取次优链接。
研究生论文\主题网络爬虫抓取策略的研究_刘某某.pdf
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《爬虫技术研究论文笔记》的无排版文字预览,完整内容请下载
爬虫技术研究论文笔记由用户“yantl318”分享发布,转载请注明出处