试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

熊猫实战经验的总结

作者: 管理员 | 阅读: 36747/0   2016/8/3 10:16:17
 
这是对一个熊猫大型用户使用过程中软件操作改进的意见,分享在这儿。

====================================
正式运行的项目,运行设置注意事项:

1、可以去掉项目高级设置中“详尽输出日志”的默认勾选。并去掉“输出调试日志”的勾选。可以减轻日志的压力。进而减少硬盘IO的操作,提高系统整体性能。

2、项目高级设置-采集-勾选“断点续采时分析失败的页面不再访问”。可以提高效率。

3、项目高级设置-采集-勾选“断点续采时不检查重复子项”。在存在重复子项的场合下,可以勾选此项提高效率。

4、项目高级设置-解析-勾选“使用高速解析模式”。可以显著提高运行效率。新版本中,此项默认是勾选。老版本下配置的项目,此项未能勾选。

5、如果“选择内容页”里面采用的是中介方式,则可以勾选“项目高级设置-解析-"列表页面不做仿浏览器解析"”。可提高效率。


6、重复数据的处理方式中。第一项和第二项,差别不大。第二项“检查补充新增内容”,指某一条记录下多个字段之间的数据补充。只有极少数场合下,才需要使用该功能。

6.1、正式运行的项目,除非特殊需要,一律选择第三项“断点续采”。

7、“选择内容页”的设置中,如果选择“方式1:直接指定...”的设置方法,在对方网站改版导致配置失效的时候,系统会尝试自动进行分析,用于补救。因此推荐使用“方式1”。

7.1、“选择内容页”的设置中,用中介方式,灵活性不足。不推荐使用。会导致配置很容易过期。
7.2、优先尝试使用“新建项目(快捷)”方式,在该方式无效的情况下,再改用“新建项目(标准)”模式。


8、对于搜索引擎的关键词搜索,优先使用“新建项目(关键词)模式”。此种方式优势在于可以合并不同搜索引擎下,相同的搜索结果。避免不必要的重复访问。可以提高效率。

8.1、中文搜索引擎的“有道”已经关门,其数据为调用360搜索的数据。因此有道的搜索没有必要存在。腾讯的搜搜同样已经关门。

8.2、新建项目(关键词搜索)模式下,出现的搜索引擎,是目前中文搜索引擎中有效的搜索。

9、“内容页面模板管理”中,如果选择的是自定义模板。则可以勾选“模板均失败时改用自动解析模式”,用于补救数据。此时系统在所有模板均分析失败时,调用“自动解析”里面的设置进行自动解析、分析。


10,对于存在防采集的场合,可以打开项目高级设置-“页面访问参数”-勾选“同时使用动态UserAgent”。可以显著减少被K几率。

10、如果被搜索引擎屏蔽搜索。可以打开项目高级设置-“云计算”-选择“仅请求协助网页的访问”,并勾选“只有列表页的访问使用云请求”。此时基本就不会被搜索引擎屏蔽。前提是云计算处于可用状态。

11、项目专属数据库文件data.mdb。要及时清理,一旦文件大小达到2G,就会出现ACCESS操作报错的情况。项目日志文件同样如此。


12、正文采集项,如果使用中介方式获取正文,则需要对获取的正文中的HTML代码执行修缮操作。否则容易导致正文长度过大、过长。此项很重要,否则会导致采集系统、分拣系统效率低下。修缮正则语法:<.+?>

13、正文可以不入库。项目高级设置-字段默认值-选择主表-选择“正文”。勾选“设置该字段默认值”-勾选“值不入库”。由于数据会在采集的同时,会发布到远程服务器,因此本次保存的信息,只有url才有用途。正文可以不存储,大幅度节约文件大小。节约硬盘IO。




回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 淘宝数据采集软件 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4