数据库设置 帮助目录 词典
请在此设置用于存储采集数据的数据库。这是必要的过程,且必须先行设置好,因为后面模板页面的设置过程需要指定采集对象存入对应的数据库表单和字段。如果你只是需要采集、下载网络文件,而不涉及到数据的存储入表,则可以不填写数据库设置。
详:
数据库设置的操作流程如下:
1、选择用来存储采集结果的数据库引擎种类:Access,mssql,mysql,oracle。
2、完整填写数据库登录账号。如果是Access数据库,则直接选中数据库文件即可。大部分的Access数据库都不需要设置登录账号。
3、点击<测试连接>按钮进行连接测试。这是必须的,且数据库连接必须有效,否则无法进行后面环节的操作。
4、确保数据库的测试连接成功。不论测试连接是否成功,系统都会用对话框告知。 数据库测试连接成功后,会在"主表(父表)"列表框内列出该数据库内所有可以使用的表。
5、请在"主表(父表)"列表框内,点选用来存储采集结果的(数据库)表。如果采集结果需要使用多张表才能存储,此处只需要点选主表即可。

如果采集结果只需要使用一张表即可存储,则数据库设置环节到此即已完成。如果采集结果数据需要用多张表才能存储,则请按如下流程继续操作

5.1、勾选"启用子表"选项。此时界面下面的子表设置控件会解锁,进入可操作状态。同时主表列表框右边会显示让您选择主表主键的控件组。
5.2、点选主表的主键字段。请在"选择主表主键"列表框内点选主表主键。对于非access数据库,该列表框内显示的会是具有主键或标识属性的字段。该字段可能会是一个,也可能会是多个。
5.3、请在子表列表框内,点选需要使用的子表。该子表的所有字段此时会在右边列表框内列出。
5.4、请在子表字段列表中,点选该子表中用来指向父表主键的字段。
5.5、点击<添加>按钮。完成一个子表的入选设置。
5.6、对于同时存在多个子表时,请重复5.3~5.5操作即可。
为简化问题,此处约定:所有入选的子表均直接隶属于主表(或称父表),子表相互间不再存在任何隶属关系。所有子表指向的父表主键,均是同一个字段。虽然理论上可以允许不同,但这样会增加操作复杂度,增加出错概率。 以后版本的熊猫软件可能会深化数据库表单之间的复杂关系,这需要视实际需求和实用反馈才能决定。
子表通过利用专用字段来指向(记录)父表的主键值,来实现父子表之间的隶属联系。至于如何选择或者定义匹配的数据库表单来存储采集结果,已经超出熊猫采集软件帮助系统所应关注的范畴,对此可能需要自行决定。如果你是数据库新手,建议直接使用系统默认的"自动生成当前项目的数据库表单"选项,来跳过本数据库设置环节。
主表不可缺失,不可跳过主表而单纯使用子表。这种情况下,可以将子表设置成主表,或者对主表随意设置一个采集内容。

如果你是专业技术人员,这儿的数据库设置环节会很简单明了,如果你不熟悉数据库知识,则可能会很困难,很有必要先行学习一些必要的数据库基础知识。下面将利用通俗语言尝试描述一下有关数据库的基础知识,希望对数据库新手有所帮助:
数据库,可以理解为是用来存储、管理"数据集合"的仓库。绝大部分需要管理的"数据",都可以是一个二维表单形式(如一个Excel表),表单的第一维标示每条数据所辖的子项的名称种类,表单的第二维标示有多少条同类的数据。
由于现实中有各类各样的复杂数据种类需要管理,因此数据库结构进行了多层次的分级划分,大致划分如下:数据库管理引擎->不同名称的数据库->不同名称的(数据)表->不同名称的(表)字段,下面分别阐述:
  • 数据库管理引擎:即数据库(管理)软件,常用的有ACCESS,MSSQL,MYSQL,Oracle等等。熊猫采集软件目前只支持这四种数据库软件。Access属于小型数据库,较为简单易用,因此没有下辖不同名称的数据库,而是直接下辖不同名称的(数据)表。
  • 不同名称的数据库:仅用于数据库的划分管理,同一个数据库引擎下面的多个不同名称数据库,彼此间具有兄弟关系,但没有任何业务关系,相互间完全独立使用。用户只需要知晓和使用其中某一个名称的数据库即可。数据库下辖若干不同名的(数据)表。
  • 不同名称的(数据)表:用来存储一个相对独立的数据集合。同一个数据库下可以有若干个不同名表,表彼此间在形式上是平等兄弟关系,在逻辑上则既可以是兄弟关系,也可以是父子关系,还可以具有其它复杂关系,具体关系要看数据库使用者的设计。
    例如某一个企业的基本资料,可以作为一个表存在,该企业可能有多种产品,则其产品也可以作为另一个表。前后两个表在形式上是平级兄弟关系,但在逻辑上是父子隶属关系,产品表隶属于企业表,这样组成的数据集合才有使用意义。
    表是二维结构(如Excel表),第一维为字段,第二维是具有重复性质的同类数据,可描述为第N条数据。如前例,"企业基本资料"表,可以同时存储若干个不同企业的资料信息。
    (数据)表下辖不同名称的字段,表是由不同名称的多个字段组成,且必须要有一个以上字段存在。
  • 不同名称的(表)字段:字段是表的必要组成部分,如上面所述例子,企业资料表,可以包括:名称、地址,法人,电话等等字段。同一个表内字段不可以同名,字段名称仅仅只是用来区分字段,不具有实质意义,一般可以任意命名。
  • 字段可以有多种不同类型:数值类、字符串类、时间类等等。一个正确设置的表,必须要有一个"主键"存在,主键,也混称"标识",通过该字段来确保该表内存储的多条记录不会完全重复。换句话说,一个表内具有“主键”属性的字段的内容,是不允许重复的。大部分情况下,表的主键都是由“自动增长”的数值类型字段担任,字段名称也会有'id'字样存在,一般也会是表的第一个字段。一个表内是可以存在多个"主键"属性的字段,但是必须要有一个。
    如果您已能良好理解上面的阐述,则应该可以进行简单的采集设置。对于新手,在设置时推荐选择“自动生成当前项目的数据库表单”单选按钮(默认项),使用系统提供的通用默认Access数据库。这样可以省略对数据库的设计、定义过程。