<%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%> 内容页面的模板学习设置帮助_新手指引
采集设置操作的新手指引 字体: 帮助目录 词典

内容页面的模板学习的设置:
在当前设置对话框内实现最终的采集设置。这是最核心的采集设置,在该页面内指定需要采集的对象、指定采集数据的存储位置、指定需要下载的文件、指定分页链接所在、指定需要嵌套访问的下级子页面等等。
必须操作的地方:

一、采集网页内容的常规设置
  1. 在“模板页面内容的分解与指定”下的列表框中选中需要采集的内容对象。
  2. 依次勾选“采集该项,...”;勾选“存入数据库表(此时右边的数据库库表名列表会由灰色变得可操作)
  3. 在“数据库表名称”下拉列表中选择用来存储点选的网页内容对象的数据库(此列表内罗列的库表名称,均来自前面“数据库设置”环节设置和定义的数据库表名称)(点选其中某一表名后,右旁的“对应字段名”列表内会联动罗列出该表内可用字段的名称,以供用户挑选。)
  4. 在“对应字段名”列表内点选用来记录点选的网页内容对象的字段名。
  5. 至此即以完成一个最基本的网页对象的采集入库的设置工作。重复1~4操作过程,实现对所有需要采集的网页内容对象的采集设置操作。
  6. 在设置完成所有网页内容对象的采集设置后,点击设置窗口下方的按钮退出。内容页面的最基本的设置操作完成!
    熊猫采集软件与你见过的任何采集工具软件的操作都不同,熊猫会记录用户的点选操作结果,并据此作为采集匹配的模板。 熊猫采集的模板设置过程可以认为是一个机器学习、机器训练的过程。

二、采集网页内容的进阶设置:如果前面的常规设置不足以解决实际采集需求,不能满足复杂情况,此时可以使用熊猫的进阶辅助设置功能。灵活组合这些辅助功能可以实现对绝大部分复杂网页的完整采集匹配。
  1. 确认(子项)标题:在内容列表框内点选的内容,如果系统判断该点选内容有标题内容存在,则“前缀标题字符的确认”栏目会由灰色变得可操作。如果系统肯定的认为该标题内容就是当前点选项的标题,则确认(子项)标题项会自动勾选上。反之,如果系统不能肯定该标题内容一定就是当前点选项的标题,则不会勾选。此时用户可以自行判断和检查,不论系统是否已经勾选,用户均可自行决定是否应勾选上“确认(子项)标题”复选按钮。如果该项是灰色的,意即不可操作状态,此时说明系统认为当前点选内容没有可能的标题内容存在,此时也就不必过问该项是否已经勾选。(注:当前版本熊猫只支持对文字标题的判断和识别。)
    确认(子项)标题”也很重要 ,对于需要采集的内容项,如果确认有标题存在,则在采集运行时,匹配失败的概率就会很小。因此,要尽可能的确保有标题内容时,勾选了该复选框。当然,如果该标题内容并不恰当,或并不具有通用性,此时如果勾选上“确认(子项)标题”,则会导致采集运行结果出现大面积的匹配失败,会导致“识别率”的降低!
  2. 其它属性的确认:时间格式、整数、浮点数、邮箱。如果系统认为当前点选对象,满足其中某一属性时,其对应的属性控件会由灰色变为可控状态,并自动勾选上。如果系统判断失误,或者该项没有必要具有该属性,用户可以自行取消对该属性项的选中。
    这四个属性项的作用,是在采集运行时,用这四种属性来校核采集结果,避免误采集命中,在复杂场合下,可以有效降低误命中的概率。当然,如果不恰当的选中相关属性,也会导致采集运行结果出现异常。
  3. 该项必须命中:表示在采集运行时,如果没有有效命中当前选中的采集项,则当前采集项所在库表的当前项的所有已匹配结果均放弃,意即匹配失败。一般来说,采集项的标题都有必要勾选此项。一般应确保每个采集项目中至少有一项有此勾选。这样可以有效确保采集结果的准确性,有效避免误采集了不相关的网页。
  4. 该项进行分页归并:在当前页面存在分页时,对于分页中存在需要合并的(非重复子项的)内容,请勾选此处。这样在采集运行时,系统会对勾选了"该项进行分页归并"的采集项进行分页内容的自动合并操作。其合并操作过程,由系统隐含自动进行,用户无需过问。
    最常见的应用场合是对新闻内容进行分页合并,此时,对于存在分页的新闻正文应勾选上"该项进行分页归并",以便新闻正文进行分页合并操作。而新闻标题、新闻时间等采集内容,则无需勾选此项,因为这些内容不存在分页合并的需要。
    进行分页合并操作时,有必要注意两点:一、对于存在分页的采集页面,应点选上任一分页链接,并勾选“该链接为指向“当前页的分页”的链接”,此时此处的“该项进行分页归并”命令才会发生作用。否则即使勾选此处,也不会起作用。二、对于具有重复子项属性的子内容集合,会自动执行分页合并操作,不论此处是否勾选“该项进行分页归并”,均会进行分页合并,无需用户过问。例如对于论坛的回复内容,只要用户指定了当前页面的“分页链接”所在,其所有分页回复内容,均会自动合并到一起。
  5. 比对内容的CSS:指在采集运行过程中,需要将当前模板页面的当前入选采集项的CSS属性,与被采集页面内初步入选的采集内容的CSS属性进行对比。如果不满足,则意味该子项的采集匹配失败。在有些复杂采集场合下,可能需要勾选此项,以增加过滤判断的途径。但大部分情况下都不必勾选。
  6. 比对标题的CSS:指在采集运行过程中,需要将当前模板页面的当前入选采集项目的标题内容的CSS属性,与被采集页面内初步入选的采集内容的标题的CSS属性进行对比。如果不满足,则意味该子项的采集匹配失败。如果当前入选的采集子项没有标题属性,则此复选按钮会是灰色,意即不可操作。在有些复杂采集场合下,可能需要勾选此项,以增加过滤判断的途径。但大部分情况下都不必勾选。
  7. 结果的修缮>>>:点击可以打开对采集结果进行修缮操作的对话框。在该新打开的对话框内,可以对当前入选采集内容执行终极修缮操作,包括:内容的伪原创、时间提前操作、删除部分指定内容、添加内容等。在该对话框内执行删除、替换、修改操作时,可以选择输入正则表达式,这是熊猫采集系统中唯一一处允许使用正则表达式的地方,目的是为了保留一个可终极操控的途径,但不推荐使用,除非迫不得以。具体操作过程可参考系统的帮助目录中对应条目。

三、分页合并的操作
  1. 在“模板页面内容的分解与指定”列表框内找到任一分页链接。并用鼠标点选该项。(分页链接:一般形式为“下一页”、“NEXT”等字样)
  2. 勾选“该链接为指向“当前页的分页”的链接”复选按钮。
  3. 对于主表下的采集内容,或者其它非“重复子项集合”内的内容,需要进行分页合并的,请在该需要执行合并操作的采集子项字段中,勾选“该项进行分页归并”复选按钮。
    例如:对一个典型的新闻栏目的采集设置中 ,如果该新闻内容页面存在分页,则此时的操作为:A、找到并点选当前模板页面内的分页链接,B、勾选“该链接为指向“当前页的分页”的链接”复选按钮。C、将新闻正文内容的采集项中的“该项进行分页归并”复选按钮选中。D、至此即完成分页合并的操作。其它例如新闻标题、时间等入选采集的内容则无需额外的操作。
  4. 对于重复子项内容,不需要执行第3项操作。一旦内容页面存在指定的分页链接,则会自动隐含对“重复子项的集合”执行分页合并操作。此时用户无需额外操作。
    例如:对于某论坛执行全面采集,需要采集的回复内容可能有很多分页存在,此时的操作为:A、找到并点选当前模板页面内的分页链接,B、勾选“该链接为指向“当前页的分页”的链接”复选按钮。C、至此即完成对论坛回复内容的分页合并的操作。
    论坛回复内容,或新闻评论内容等,一般在当前页面内都具有多项类似内容同时存在,我们称之为“重复子项”。对于重复子项的设置,请见下面的设置说明。
  5. 更新访问时该分页访问的最大深度可选操作项。指更新访问时,对分页访问的深度,设置的限定数值,只约束采集项目的非首次运行,首次运行默认为全部遍历。此项只适合对二级标题列表页面进行翻页访问时的深度控制。如果当前页面是需要采集的内容页面,此项设置可能没有必要勾选。

四、重复子项的设置操作

五、复合语句的设置操作

六、图片、动画、视频、音乐、文件等非文字对象的下载的设置操作
  1. 在“模板页面内容的分解与指定”下的列表框中选中需要下载的内容对象。
  2. 依次勾选“采集该项,...”;勾选“存入数据库表(此时右边的数据库库表名列表会由灰色变得可操作)
  3. 在“数据库表名称”下拉列表中选择用来存储点选的网页中需要下载对象的数据库
  4. 在“对应字段名”列表内点选用来记录点选的需要下载的网页对象的字段名。
  5. 依次勾选“下载该文件”,再勾选“下载当前文件”或“下载链接指向的文件”。
  6. 存储在本地目录该项是可选操作,默认情况下无需勾选此项,因为默认情况下文件会下载到本地下的默认目录内。如果需要改变当前采集下载文件的本地存储路径,请勾选此处,填写本地路径。
  7. FTP上传到服务器指定目录该项是可选操作。如果在前面的“文件下载”设置环节勾选启用了“将下载的文件同步上传到服务器”,则此处的FTP上传设置控件会由默认的灰色变为可操控状态。否则此处的“上传到服务器指定目录”及所辖控件均为灰色,不可操作。
    由于在前面的“文件下载”已经对FTP相关操作进行了设置,此处会使用前面的设置结果作为默认设置。因此此处只需要勾选“FTP上传到服务器指定目录”即可完成对该下载文件的FTP上传操作。显然,你也可以在此自由将“默认FTP目录”设置为自己想要的目录。

七、访问和配置子页面
  1. 在“模板页面内容的分解与指定”下的列表框中选中指向下级子页面链接的内容对象。
  2. 勾选“该链接为指向“下级子页面”的链接(直接或间接链接)”复选按钮。(此时此复选按钮所辖控件会打开,便成可控操作状态)
    (如果“该链接为指向“下级子页面”的链接(直接或间接链接)”复选按钮是灰色的不可控状态,说明当前在“模板页面内容的分解与指定”列表框内点选的网页对象没有链接属性,因此该复选按钮无法操作。)
  3. 点击按钮,分析该链接指向的子内容页面。新打开的子页面设置窗口和当前窗口的操作是基本一致的,只是受数据库表单的逻辑关系限制,有些数据库表或表字段是不可使用的(对于在该子页面中不可使用的数据库表或字段,系统都已经做了隐藏操作。正常情况下,用户可以放心使用)。
  4. 在子页面设置窗口设置完毕后,点击子页面设置窗口下的按钮,保存对子页面的设置,返回当前设置窗口。
  5. 如果该子页面需要定义多个模板,请在此处的长形输入框内输入该子页面典型模板页面的网址URL。并点击按钮,重复对子页面进行配置。在有多个子页面模板时,按钮左旁的列表框内会罗列出所有的有效的子页面模板。点击对应模板项,再点击按钮,即可实现对该子页面模板的修改操作

    (默认情况下,此处只有一个页面模板,就是当前页面的“模板页面内容的分解与指定”下的列表框中选中的链接指向的子页面。在项目新建模式下,如果此处只有一个页面模板,则此处的模板列表框中可能为空,意即在一个字页面模板时,此处的相关操作都会针对该唯一子页面的模板。)
  6. 对子页面的访问可以是无限嵌套的。意即子页面的嵌套访问深度不受限制。但要求在逻辑上行得通,在逻辑上具有现实意义。

八、“利用中介方式添加新的链接指向”:


熊猫采集的采集项目设置,需要逐步进行,因为后面的配置依赖于前面的设置结果。
熊猫采集是采集软件的换代产品,其工作模式、设置方法与您使用过的任何采集软件都不同。因此首次配置项目时请参考新手指引。
一旦熟悉了熊猫的配置和工作机制,则操作和采集配置过程就会非常轻松、简单、便捷。
配置采集的配置思路很常规:通过翻页来遍历访问“标题列表页面”,进而访问所有的“内容页面”,在内容页面内来采集您需要采集的内容。
熊猫致力于追求所见即所得。通过鼠标点选看得见的网页内容即可完成对采集项目的配置。系统会记录用户的点选操作结果,并据此完成对采集项目的配置。
在项目设置窗口的右上方有实时动态帮助窗口,对每个设置选项都有详细说明。
在配置项目时,点击项目配置窗口上中位置的按钮,可以随时打开本帮助页面。


熊猫采集软件的设置流程:
  • 基本准备工作:
    1. 明确需要采集什么内容,从哪儿采。
    2. 明确采集的结果数据需要存储在哪儿,用什么存储。
    3. 熟悉被采集网站的逻辑架构,找到标题列表页面内容页面
  • 配置采集:
    1. 点击软件主界面菜单:“项目管理”-“新建项目”,新建一个采集项目。并依次设置:
    2. 项目基础设置(少数项目在此处需要打开设置界面下方的“高级设置”对话框。配置高级属性,新手略)
    3. 数据库设置
    4. 文件下载设置(默认情况下不用设置此项)
    5. 设置标题列表页页面翻页的方式和方法
    6. 设置标题列表页面向内容页面过度方式和方法
    7. 设置内容页面,配置需要采集的网页内容。并在内容页面模板管理窗口对定义的内容页面模板进行管理。
    8. 保存设置。完成采集项目的配置。
  • 试运行:检查运行的采集结果。依据采集运行结果,检查是否需要修改项目配置。

请问本帮助内容对你有帮助吗?是否还有费解地方?请在此反馈给我们,以便我们改进。谢谢!