(标题)列表页起始网址 帮助目录 词典
指采集内容的入口网址,通过该标题列表页面的翻页操作,实现对目标采集对象的全部遍历。请在此输入框内输入采集内容的标题列表页面网址url,再点击相邻右上方的<开始进行预分析>按钮,系统会全面分析该页面,系统会尝试自动为你找出该页面的get翻页方式。 对标题列表页进行预分析是必须的,否则后面环节的设置则无法继续。
详:
在大部分情况下,系统可以替你顺利实现相关操作。视网速和目标网站的响应速度以及页面复杂度,分析时间会在几十秒到几分钟不等。分析时,在当前窗口会出现进度条显示当前分析进度。
目前系统只能识别常见的get方式的翻页访问,对于少数必须通过post方式进行翻页访问的列表页面,目前系统不能自动识别,此时你需要自行手工添加相关post参数。期待以后版本的熊猫采集软件尽快实现对post页面的自动识别。
对于get方式进行翻页访问的列表页面,网址中会包含翻页参数,系统会使用{翻页参数n}进行标识和代替。一般情况下只会有一个这样的翻页参数存在。但系统允许多个这样的翻页参数同时存在,这样可以更灵活的实现复杂采集对象的合并遍历访问。
目前系统不支持get方式翻页变量和post方式翻页变量混合的方式,因为这种情况几乎不存在。因此如果是post方式进行列表页面的翻页访问,则不必修改入口列表页面url的任何字符,否则会导致错误。换句话说,如果系统自动分析后,在你输入列表页面url中自动插入了‘{翻页参数1}’的字样,你就不能选择翻页访问方式为‘post方式’,除非先删除已插入的翻页参数定义。