项目的设置 帮助目录 词典
欢迎进入项目设置环节,在该环节内可以实现对采集项目的全部设置/修改工作。在大部分情况下,您只需要轻松点击鼠标即可完成复杂项目的全程设置工作。如果您是第一次接触采集软件,则可以浏览一下示例项目或者演示程序。
详:
熊猫采集软件力求最大程度的降低用户操作复杂度,实现操作傻瓜化,全程可视化操作。同时系统又力求兼顾全面性,以满足各类特殊和复杂需求。 熊猫采集软件可以实现采集复杂对象集合,采集结果可以是由多个表组成的复杂数据关系,一个目标采集单元可以是来自多个页面的不同数据的组合。可以实现对采集页面的无穷嵌套访问。可以同时定义多个内容页面模板,以解决采集对象的模板多样化。可以实现对分页的访问和内容合并。其它的常见功能有:自动更新采集、ftp上传、图片动画等文件的下载。等等
一般来说,新建一个常规采集项目,大致流程如下:
  • 明确需要采集的目标:
  • 明确需要采集目标的来源,对采集后数据的存储的形式和存储位置,打算用怎样的形式来使用等。归纳为:打算采集什么,打算从哪个网站采,采集来的数据存储在哪儿,数据采集来后打算怎么个用法。
  • 明确采集目标的来源:熊猫采集的采集对象只能是允许公开访问的网站页面,因此需要明确需要采集的内容是否可以通过网页浏览器查看到,是否需要用账号登录,是get或post方式访问,目标页面的访问是否会通过JS转跳,等等。
  • 采集到的数据的存储:包括数据存储的地点是在本地还是远程服务器,用来存储采集数据的数据库种类,数据库登录账号等等。
  • 采集数据的使用形式:包括数据入库,自动发布到自己网站,存入Excel/text文件等等。目前版本的熊猫采集,暂只能实现采集数据的入库、以及文件的下载和FTP上传。对于需要将采集数据自动发布到自己网站的需求,是可以通过操作远程数据库并结合FTP上传来实现。
  • 了解和认识被采集网站的内容架构:
  • 确认所有需要采集的内容是可以通过你的浏览器得到访问。熊猫采集同时也具备通过中介方式访问隐藏页面的能力。
  • 找到需要采集对象的“标题列表”页面。一般来说标题列表页面应该具有访问“下一页”的链接存在,这样才能确保所有内容都能得到遍历访问。例如需要采集百度“知道”栏目下的“电脑网络”子栏目内容,需要找到该子栏目的标题列表页面的网址:http://zhidao.baidu.com/browse/74?lm=2&seed=0 ,所有“电脑网络”的栏目内容,都可以通过该页面的标题链接而得到访问。
  • 明确访问该标题列表页面的指向“下一页”的链接是get方式还是post方式,或者JS函数转跳方式。系统对这三种方式都有对应的处置办法,但需要明确访问方式的种类。绝大部分情况下,都是get方式。具体对应操作,在相应环节会有详细帮助说明。如果你是网络新手,对此一无了解,也没关系,系统会默认为get方式,并据此进行自动分析。
  • 明确需要采集的内容的数据关系。是单一表数据,还是由多个数据库表单才能存储的复杂数据关系。例如需要采集某B TO B网站内的企业全部信息,需要采集的企业信息包括企业介绍,不确定的多项产品列表,联系方式等,此时,企业基本资料为主表,具有重复多项的产品信息则必须为独立子表,联系方式可以存入主表,也可以存入单独的子表。相应的,应该先行准备好用来存储的数据库表单。
        如果您是的网络新手,对数据库并不熟悉,也没关系,在设置时可以选择“自动生成当前项目的数据库表单”单选按钮(默认项),系统会自动准备一个通用的本地Access数据库用来保存采集信息。
  • 了解需要采集的内容是否在同一个页面内,或者是分散在多个不同页面内。
  • 配置采集:
  • 熊猫采集的配置,大致分成四个部分:基础设置,数据库及FTP设置,引导页设置,内容页设置
  • 项目基础设置:配置项目的一些基础定义。为了简化问题,降低用户操作难度,这一块大多都做了的默认设置,用户可以在实时帮助的帮助下,通过点击鼠标即可轻松完成设置。
  • 数据库及FTP设置:对于非技术专业人士,这一块将是很大难点,系统对此也做了大量的工作,力求让用户最大程度的简化操作,以及方便操作。用户可以根据自己需求,必要时则需要寻求技术专业人士的帮助。全程可视化操作,一般只需要通过鼠标点选即可。
  • 引导页设置:指对“标题列表”页面的设置。包括标题列表页面的起始网址、翻页方式、翻页参数、指向内容页面链接的方式等。全程可视化操作,一般只需要通过鼠标点选即可。
  • 内容页设置:具体采集内容的页面的模板学习过程,是采集配置的核心所在。可以实现一个项目下同时具有多个模板(系统运行时,会自动识别最合适的模板)。对于复杂采集对象,例如多表、多页面、分页合并、重复子项等等,均在该环节设置。全程可视化操作,一般只需要通过鼠标点选即可。
  • 项目高级设置:封装的一些高级参数设置,一般只需直接使用默认设置即可。入门级用户一般无需关心。
  • 采集运行:
  • 项目的运行有两类:一次性的采集和需要定时更新访问的多次采集。用户根据自己需要,自行选择,默认情况下是一次性的采集。有更新采集需求的,需要在项目设置环节(基础设置)勾选“启用定期更新功能”功能。
  • 启动采集:熊猫采集软件,可以实现多项目同时运行。因此默认流程是先行“启动熊猫采集系统”进入运行状态,由系统调度需要采集的项目按时进行采集运行。用户也可以直接启动某个项目进入运行,此时会自动激发系统的启动。系统的操作模式类似“迅雷软件”。
        项目的启动运行有两种模式:启动项目、立即运行项目。前者指启动项目,进入等待系统调度状态,由采集软件系统根据项目的设置(指定的下次运行时间)来决定何时启动该项目。此时项目未必会立即进行采集运行。后者则指立即启动项目进入采集运行。
  • 停止项目:分成两种状态:1、项目运行彻底结束;2、项目本次运行结束并等待下次自动更新运行。对于前者,除非人工干预,否则项目将不会再次运行。后者则相反。如果通过点击项目“停止”按钮,则项目会进入彻底结束状态。对于需要更新运行的项目,一旦点击项目的“停止”按钮,则需要点击“项目启动”按钮来实现项目的定时更新运行。
  • 下面将进入项目的具体配置环节,每个环节都有详细的实时帮助,通过鼠标点击相应的设置对象即可查看该设置对象的实时帮助。对于较熟练用户,全程配置一个复杂的项目只需要几分钟时间。 如果相应的实时帮助的说明不能让你理解,欢迎反馈给我们,以便及时更新改进。