快乐学习
前程无忧、中华英才非你莫属!

Day2-数据挖掘-细看帮助文档

前言
 
数据图表之父William Playfair、玫瑰图的缔造者南丁格尔、以及天地诸神作证,我发誓:
* 我愿以自身能力所及,尽力展示数据;
* 我发誓,数据表达的真相,我绝不扭曲;
* 即使是超大的数据集,我也将令其干净、连续;
* 永远保持热情,对不同的字段进行比较;
* 从宏观到微观,用不同的细节揭示数据背后的秘密;
* 每做一个图集,都有一个清晰的目标:或描述、或探索;
* 我的技术永远为揭示数据真相而服务,而不是利用数据炫耀自己的技巧。
我遵守以上誓言,珍惜阐释数据的无上光荣。
 
 
 
 

SPSS Modeler  Type控件中测量字段介绍

• 默认值。具有未知存储类型和值的数据(例如,由于其尚未被读取)将显示为<默认值>。
 
•  连续。用于描述数字值,如范围 0 – 100 或 0.75 – 1.25。连续值可以是整数、实数或日期/时间。
 
•  分类。用于字符串值(可取的值的确切数量未知时)。这是一种非实例化数据类型,表示有关数据存储类型和用法的所有可用信息均未知。读取数据后,测量级别将为标志、名义或无类型,具体取决于“流属性”对话框中指定的最大名义字段数量。
 
•  标志。 用于带两个不同之的数据,表示存在或不存在一个特性,如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同,但其中总会有个值代表“真”值,另一个代表“假”值。 数据可表示为文本、整数、实数、日期、时间或时间戳。
 
•  名义。 用于描述具有多个不同值的数据,其中的每个值都被视为集合的一个成员,如 small/medium/large。名义数据可具有任何存储—数值、字符串或日期/时间。请注意,将测量级别设置为名义不会自动将值更改为字符串存储。
 
有序。用于描述具有顺序固定的不同值的数据。例如,工资类别或满意度排序可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如,1, 3, 5 是某个整数集合的默认排列顺序,而 HIGH, LOW, NORMAL(按字母升序)是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据,以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序(如 IBM® SPSS® Statistics)。您可以在任何能够使用名义字段的位置使用有序字段。此外,可以将任何存储类型(实数、整数、字符串、日期、时间等等)的字段定义为有序。
 
•  无类型。用于不属于任何上述类型的数据,具有单个值的字段,或集合的成员数超过定义的最大值的名义数据。当测量级别为包含许多成员(如帐号)的集合时,这种类型也将十分有用。当您为字段选择无类型时,角色将自动设为无,记录 ID 作为唯一的替代项。默认的集合最大容量为 250 个唯一值。可在“流属性”对话框(可通过“工具”菜单访问)的“选项”选项卡上调整或禁用该数字。 
 
可以手动指定测量级别,也可以由软件读取数据并根据所读取的值确定其测量级别。 
 
此外,如果有多个连续数据字段需视为类别数据,可以选择一个选项来转换它们。 请参阅 主题 转换连续数据 详细信息。 

SPSS Modeler  Type控件中角色字段介绍

输入。字段将用作机器学习的输入(预测变量字段)。
 
目标。字段将用作机器学习的输出或目标(模型将尝试预测的字段之一)。
 
两者。字段将被 Apriori 节点同时用作输入和输出。所有其他建模节点都将忽略该字段。
 
。机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
 
分区。指明字段用于将数据分区为单独的样本(用于训练、测试,也可用于验证)。该字段必须属于实例化集合类型,具有两个或三个可能值(在“字段值”对话框中定义)。第一个值表示训练样本,第二个值表示测试样本,第三个值(如果存在)表示验证样本。所有其他值都将被忽略,且不能使用标志字段。请注意,要在分析中使用分区,必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时,会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段,那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段,您可以使用“分区”节点或“派生”节点进行创建。请参阅主题分区节点,了解更多信息。
分割。(仅名义、有序和标志字段)指定为字段的每个可能值构建一个模型。
 
频率。 (仅数字字段)设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能;所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上,选择使用频率权重以启用频率加权。
 
记录标识。此字段将用作唯一记录标识。大多数节点都会忽略此特征;但它受线性模型支持,并且是 IBM Netezza 数据库内挖掘节点所必需的。
 
 

标志目标的自动建模

连续目标的自动建模

自动数据准备 (ADP)

 

准备分析数据(数据审核)

 

药物治疗(勘察表/C5.0)

 

筛选预测变量(特征选择)

 

减少输入数据字符串长度(重新分类节点)

对客户响应建模(决策列表)

 
打赏

未经允许不得转载:同乐学堂 » Day2-数据挖掘-细看帮助文档

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

特别的技术,给特别的你!

联系QQ:1071235258QQ群:226134712
error: Sorry,暂时内容不可复制!