|
![]() |
|
全方位的采集功能
面向对象采集,采集对象的内容可以是分散在多个页面(模板页面的深度嵌套访问)
熊猫采集是面向对象的,一个采集对象可以拥有许多需要采集的子项属性内容。这些子项属性的内容允许分散在不同的页面内,这些页面可以是需要通过若干次链接才能到达的页面。
此处所谓“对象”,可以理解为“(需要采集的数据的)数据集合 ”的意思。这个数据集合的内容和范围由用户根据实际需求自行决定,没有特定的要求。也可以将该对象范畴囊括到“标题列表页面”,这属于变通使用的方法,在此不多做赘述。灵活的使用面向对象的方法,不仅可以实现很多复杂的采集需求,更可以使得采集设置过程更为简单。
采集速度快
熊猫采集的采集速度是采集软件中最快的(之一)。不使用落后低效的正则匹配技术。也不使用第三方内置浏览器访问的技术。使用自己研发的解析引擎,实现对网页源码的仿浏览器解析。分解网页可视化内容元素,在此基础上进行机器学习、批量采集匹配。经实际测试,是传统的正则匹配方式采集速度的2~5倍。是基于第三方内置浏览器采集速度的10~20倍。
结果数据完整度高
实际采集过程中,由于目标页面存在丰富的内容页面板式的情况,此时就需要使用熊猫独有的“多模板功能”,才能实现完整的采集。同时,看起来页面版面一致的情况下,也可能会存在因为页面内部的少量差异而采集采集匹配失败,此时就需要采集器具有智能容错能力。智能容错能力,是衡量一个采集器是否成熟的基本标志之一。熊猫追求的是采集结果100%的完整。包括有效页面100%的采集,页面中采集的内容100%的采集。只要设置恰当,不会出现采集结果遗漏的情况。——只有熊猫才能让结果如此完整。
JS解析的自动判断识别
现在很多网页都采用了ajax网页内容动态生成技术。此时仅仅依靠网页源码,并不能获取需要的有效内容。此时就需要对被采集的页面执行JavaScript(JS)解析,获取JS执行后的结果代码。
熊猫支持对需要JS解析的页面,执行JS解析,获取JS解析后的实际内容。鉴于执行JS解析的速度效率很低,因此熊猫内置了智能判断功能,自动检查是否需要对被采集的页面执行JS解析,如果不需要的,尽量不使用低效的JS解析模式。
多模板自动适应能力
实时帮助窗口
正文和回复内容同时采集的能力
分页内容的轻松合并
支持各种类型的分页模式,用户只需要做两步就可以实现分页内容的合并:鼠标点选确认分页链接所在,将需要分页合并的字段项勾选上“分页合并”项即可。如果页面内具有重复子项存在,则能自动在分页中寻找该重复子项,隐含自动进行分页内容合并。
典型如上述的论坛例子,分页页面内的回复内容,可自动实现归并,此时用户只需要鼠标点选确认分页链接所在即可。有些场合下,在论坛内容页面的分页中也会同时出现主体(主表)内容,此时系统会自动进行判断,不会将主表内容当成重复子项的子表内容进行采集。
利用cookie方式模拟登录网站
支持常见类型数据库引擎。支持FTP上传
无人值守自动定时运行
文字内容的“伪原创”修改。支持文章时间的提前
电话:171 9219 7361
建议/合作: 139 1618 6547
邮箱:123jlxie@ 163.com