试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

希望能增加正则表达式、xpath定位和对json结构快速提取信息

作者: 2339083510 | 阅读: 6772/2   2016/8/5 0:52:04
 
昨天在公司刚刚用上熊猫,立刻把我吸引上了。以前用网络矿工,bug很多而且太多的页面采不了,所以打算放弃了,特定在网上查了一下,决定试试看,学习一下熊猫采集
今天上班的话,我打算学习一下熊猫,如果确实很牛,我就去和领导提一下,开个付费账户。以前研究其它的采集软件,学了很多,不想就抛弃了,希望这个软件能支持这些功能(可能已经支持了)
1.正则表达式
2.xpath定位和提炼信息
3.把json文本转换成表格
4.允许用户写一些复杂的脚本
5.把采集到的信息生成xls、csv(因为我是搞数据分析的,这对我来说很有意义)
6.有一个通用的方案,支持使用者自己写一些脚本,以调用其它软件的接口,比如我有时候很希望有一个简单的软件,能把采集到的数据用一定的方式提交给一个代数系统,然后接收代数系统返回的结果,并进行收录


2 楼: 管理员 2016/8/5 8:46:56
 
你好! 熊猫兼容老式采集软件的“标签”操作方法,需要使用标签定位的时候,请使用“中介方式”即可。

在标签定位中,并不支持正则表达式,因为根据经验,不恰当的正则表达式会导致系统性能缓慢,CPU狂飙。因此对于复杂的标签提取,可以使用中介方式中的“高级中介方式”。

对于xpath / json输出的内容,可以用中介方式提取,然后利用下级子页面中的子表功能进行批量提取即可。很简单的。

熊猫提供有一个功能强大、灵活的“结果的修缮”功能,实现对原始获取的结果数据的深度清洗、加工,里面支持正则语法。配合项目高级设置中的“字段默认值”的相互间的赋值功能,可以实现复杂的数据加工。


5、熊猫的采集结果,默认是自动存储在项目专属文件夹下的data.mdb文件中。为offic.access软件格式,用office.excel软件也可以直接打开查看,也可以用excel打开后,另存为需要的xls,csv格式。

6、熊猫有数据模拟发布功能。为万能模式,借助已有的人工发布页面进行发布。

如果你的采集需求比较复杂,可以加熊猫QQ2607374426,给你远程演示一下。


3 楼: 2016/8/5 9:26:59
 
我先用用看,不懂再发帖询问,非常感谢你的答复


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 淘宝数据采集器 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4