试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

【求助帖】内容页设置

作者: shaf | 阅读: 17739/6   2015/9/19 11:06:22
 
刚接触熊猫,初次采集不是很顺利,所以上来求助大伙~
尝试的目标是:http://search.net114.com/corp-sw-一体相册.html
打算采集厂商的公司简介、联系人、地址之类的,目前卡在内容页上面 
 红色框是需要进去采集的链接,  
  这是不需要的部分,请问怎么去除?
除此以外,如果按照地区采集,应该怎么弄?
刚接触几天的小白,大伙不要嫌我问题多啊~~


2 楼: 管理员 2015/9/19 13:31:14
 
在“选择内容页”标签下,点击上方的“高级设定>>>”,打开高级设定对话框,按如下图示设置,即可全部框选。

 


3 楼: 管理员 2015/9/19 13:41:48
 
这个列表页面中,如果是按地区采集,那么会在列表页的网址url中出现地区编码。如相同关键词下:

北京地区的列表网址为:
http://search.net114.com/bj/corp-sw-%E4%B8%80%E4%BD%93%E7%9B%B8%E5%86%8C.html
河北地区的列表网址为:
http://search.net114.com/hbs/corp-sw-%E4%B8%80%E4%BD%93%E7%9B%B8%E5%86%8C.html
.......

可以看出 /bj/表示北京地区,/hbs/表示河北地区。那么依次类推,在源码中找到所有的地区的编码字符,并罗列在一起,用逗号区分。然后在软件中如此设置即可:

 
  


该页面中出现的地区编码,我用熊猫的结果的修缮功能进行了分离提取:
bj,gz,sz,sh,tj,xm,bj,tj,hbs,sjz,ts,qhd,hd,xt,bd,zjk,chengde,cangzhou,lf,hs,sxs,ty,dt,yq,changzhi,jinc,shuozhou,jz,yunc,xinzhou,linfen,lvliang,nmgzzq,hu,bt,wuhai,chifeng,tongliao,erds,hlbe,xam,xl,wlcb,bycem,alsm,lns,sy,dl,as,fss,benxi,dds,jinzhou,yk,fx,liaoyang,pj,tl,cy,hld,jls,cc,jl,sp,lys,th,baishan,songy,bc,yanbian,hljs,hrb,qqhr,jixi,hegang,sys,dq,yich,jms,qth,mdj,heihe,shs,dxal,sh,jss,nj,wx,xz,cz,su,nt,lyg,ha,ycs,yz,zj,tzs,sqs,zjs,hz,nb,wz,jx,huzhou,sx,jh,quzhou,zhoushan,tz,lishui,ahs,hf,wuhu,bengbu,hn,mas,huaibei,tls,anqing,hss,chuzhou,fy,suz,la,bozhou,chiz,xuancheng,fjs,fz,xm,pt,sm,qz,zzs,np,ly,nd,jxs,nc,jdz,px,jj,xys,yingtan,ganzhou,ja,yic,fzs,sr,sds,jn,qd,zb,zaozhuang,dy,yt,wf,jining,ta,whs,rizhao,lw,linyi,dz,lc,bz,heze,hns,zz,kfs,luoy,pds,ay,hb,xx,jzs,pys,xc,luohe,smx,ny,sq,xy,zk,zmd,hubei,wh,hshi,shiyan,yc,xf,ez,jgs,xiaogan,jingzhou,hg,xns,suizhou,es,hunan,cs,zhuzs,xts,hy,shaoyang,yy,cds,zjj,yys,chenz,yongzhou,hh,ld,xxs,gds,gz,sg,sz,zh,st,fs,jm,zhanjiang,mm,zq,huizhou,mz,sw,hys,yj,qys,dg,zs,czs,jy,yf,gxzzq,nn,liuz,gl,wuzh,bh,fcg,qinzhou,gg,yul,baise,hezhou,hc,lb,chongzuo,hainan,haikou,sany,wzs,cq,scs,cd,zg,panzhihua,luzhou,dys,mys,gys,sns,scnj,ls,nanchong,ms,yb,ga,dzs,ya,bazhong,zy,ab,ganzi,lss,gzs,gy,lps,zunyi,ass,tr,qxn,bijie,qdn,qn,yns,km,qj,yx,bs,zt,lj,cx,hhs,ws,bn,dls,dh,nujiang,dqs,lcs,xczzq,lasa,changdu,sn,rkz,nq,al,lzs,shanxi,xa,tc,baoji,xianyang,wn,yanan,hanzhong,yl,aks,sl,gss,lz,jyg,jcs,by,tianshui,wws,zys,pl,jq,qingyang,dx,ln,lxs,gn,qhs,xn,hds,haibei,huangnan,hnz,guoluo,ys,hx,nxzzq,yinc,szs,wuz,guy,zw,xjzzq,xj,klmys,tlf,hami,changji,betl,bygl,akes,kzls,kashen,ht,yil,tw,amtbxzq


4 楼: shaf 2015/9/19 14:05:02
 
谢谢,斑竹回复好快~马上去试试

5 楼: shaf 2015/9/19 15:21:33
 
已经修改,貌似还有点不对。。
这是正常浏览器显示的页面
 
  
这是在熊猫里面看到的,有些内容不可见
 
  
此外开始采集也没有结果返回
 
  
后面附上设置
 
  
 
  
 
  
 
  
 
  


6 楼: 管理员 2015/9/19 15:55:41
 
重新再次运行即可。新建项目首次运行的时候,有时候会不出结果,属于隐含的一个BUG。

另外运行日志中会出现分析失败页面的提示,针对分析失败的页面,再次建立一个新的模板。

7 楼: shaf 2015/9/19 16:06:02
 
好的~ 话说为什么不能直接回复楼。。


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 论坛内容采集工具 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4