数据挖掘培训总结
数据库、Tableau、SPSS Modeler产品学习word/media/image1.gif
数据挖掘学习总结
2016年3月12日
目录
第1章 数据库 2
1.1数据库的操作 2
1.2增、删、改表的建立 2
1.2oracle数据库的应用 2
第2章 Tableau概述 2
2.1特点与优势 2
2.2实际操作 2
第3章 SPSS Modeler概述 3
3.1spss modeler 3
3.1.1 特点与优势 3
3.1.2 客户价值 3
3.1.3 功能与概述 3
3.2实际操作 4
3.2.1 特点与优势 4
3.2.2 功能与概述 5
Oracle数据库
oracle 支持的数据类型
字符类
char 定长 最大 2000 个字符。
例子:char(10) ‘小韩’前四个字符放‘小韩’,后添 6 个空格补全 如‘小韩 ’
varchar2(20) 变长 最大 4000 个字符。
例子:varchar2(10) ‘小韩’ oracle 分配四个字符。这样可以节省空间。
clob(character large object) 字符型大对象 最大 4G char 查询的速度极快浪费空间,查询比较多的数据用。 varchar 节省空间
数字型
number 范围 -10 的 38 次方 到 10 的 38 次方 可以表示整数,也可以表示小数
number(5,2)
表示一位小数有 5 位有效数,2 位小数 范围:-999.99 到 999.99
number(5) 表示一个 5 位整数 范围 99999 到-99999 日期类型
date 包含年月日和时分秒 oracle 默认格式 1-1 月-1999
timestamp 这是 oracle9i 对 date 数据类型的扩展。可以精确到毫秒。
图片
blob 二进制数据 可以存放图片/声音 4G 一般来讲,在真实项目中是不会把图片和声音真的往数据库里存放,一般存放 图片、视频的路径,如果安全需要比较高的话,则放入数据
库。
数据库的操作。
创建表
修改表
添加一个字段
SQL>ALTER TABLE student add (classId NUMBER(2));
删除表
SQL>DROP TABLE student;
所有字段都插入数据
INSERT INTO student VALUES ('A001', '张三', '男', '01-5 月-05', 10);
ALTER SESSION SET NLS_DATE_FORMAT ='yyyy-mm-dd';
修改后,可以用我们熟悉的格式添加日期类型:
INSERT INTO student VALUES ('A002', 'MIKE', '男', '1905-05-06', 10);
插入部分字段
INSERT INTO student(xh, xm, sex) VALUES ('A003', 'JOHN', '女');
插入空值
INSERT INTO student(xh, xm, sex, birthday) VALUES ('A004', 'MARTIN', '男', null);
修改数据
修改一个字段
UPDATE student SET sex = '女' WHERE xh = 'A001';
删除数据
第一种方式
DELETE FROM student; 删除所有记录,表结构还在,写日志,可以恢复的,速度慢。 Delete 的数据可以恢复。
第二种方式
truncate TABLE student; --删除表中的所有记录,表结构还在,不写日志,无法找回删除的记录,速度快。
删除表
DROP TABLE student; --删除表的结构和数据;
删除一条记录
delete from student WHERE xh = 'A001'; --删除一条记录;
oracle 表查询
简单的查询语句
查看表结构
DESC emp;
查询所有列
SELECT * FROM dept;(切忌动不动就用 select *)
SET TIMING ON; 打开显示操作时间的开关,在下面显示查询时间。
CREATE TABLE users(userId VARCHAR2(10), uName VARCHAR2 (20), uPassw VARCHAR2(30));
使用逻辑操作符号
问题:查询工资高于 500 或者是岗位为 MANAGER 的雇员,同时还要满足他们的姓名首字母为大写的 J?
SELECT * FROM emp WHERE (sal >500 or job = 'MANAGER') and ename LIKE 'J%';
使用 order by 字句 默认 asc
oracle 表复杂查询
在实际应用中经常需要执行复杂的数据统计,经常需要显示多张表的
数据,现在我们给大家介绍较为复杂的 select 语句
(数据分组 ——max,min, avg, sum, count)
分组查询
问题:如何显示所有员工中最高工资和最低工资?
SELECT MAX(sal),min(sal) FROM emp e;
问题:最高工资那个人是谁?
错误写法:select ename, sal from emp where sal=max(sal);
正确写法:select ename, sal from emp where sal=(select max(sal) from emp);
(分组函数和非分组函数不能同时在一个select里)
多表查询
说明
多表查询是指基于两个和两个以上的表或是视图的查询。在实际应用中,查询单个表可能不能满足你的需求;
(如显示 sales 部门位置和其员工的姓名),这种情况下需要使用到(dept 表和 emp 表)
(
步骤:
1-需要查询的数据来源于那几张表
2-确定表的关联关系
3-写sql语句)
问题:显示雇员名,雇员工资及所在部门的名字【笛卡尔集】?
(规定:多表查询的条件是 至少不能少于 表的个数-1 才能排除笛卡尔集,如果有 N 张表联合查询,必须得有 N-1 个条件,才能避免笛卡尔集合)
SELECT e.ename, e.sal, d.dname FROM emp e, dept d WHERE e.deptno = d.deptno;
问题:显示部门号为 10 的部门名、员工名和工资?
SELECT d.dname, e.ename, e.sal FROM emp e, dept d WHERE e.deptno = d.deptno and e.deptno = 10;
问题:显示各个员工的姓名,工资及工资的级别?
SELECT e.ename, e.sal, s.grade FROM emp e, salgrade s WHERE e.sal BETWEEN s.losal AND s.hisal;
扩展要求:
问题:显示雇员名,雇员工资及所在部门的名字,并按部门排序?
SELECT e.ename, e.sal, d.dname FROM emp e, dept d WHERE e.deptno = d.deptno ORDER by e.deptno;
自连接 (自连接是指在同一张表的连接查询 )
问题:显示某个员工的上级领导的姓名? 比如显示员工‘FORD’的上级
SELECT worker.ename, boss.ename FROM emp worker,emp boss WHERE worker.mgr = boss.empno AND worker.ename = 'FORD';
Tableau
Tableau致力于帮助人们看清并理解数据,帮助不同个体或组织快速且简便的分析、可视化和分享信息。
Tableau是新一代的BI软件,在全球拥有10000多家企业或组织客户,遍及各个行业的各类规模企业。2012年,Tableau连续三年被美国(Gartner)高德纳咨询公司评为世界上发展速度最快的商业智能公司。
可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。数据可视化旨在借助于图形化等手段,清晰有效地传达与沟通信息。
Tableau在三年内迅速发展,目前在全球拥有12000多个客户,市场份额逐年翻倍,具有简单易用、精美、快速、灵活、分享等优秀的可视化特点,是同类产品中的领导者。且与同类软件相比,Tableau需要的学习时间更短。
Tableau的特点及优势
✧ 支持各类数据源:数据以excel、文本文件,工作簿、tableau提取。
✧ 访问方式可选:实时连接,提取到tableau。
✧ 数据集创建:数据层级创建,数据标签设置。
配置方式灵活
✧ 可针对已获取数据设置筛选条件,选定分析样本,关联数据集,灵活配置或修改业务规则,开展异动监测、发现业务规律。。
✧ 灵活配置业务规则,可实现将数据字段与常数、历史均值、最大值或最小值等比较
可实现将多个数据字段进行关联对比,支持异动发现。
✧ 智能配置可视化图形。
✧ 图表间灵活关联。
✧ Tableau 页面采用拖拽方式实现图表配置和转换,操作便捷,结合其具备强大的内存计算能力,可快速得到配置结果,响应分析需求。
✧ 强大的内存计算能力
特点与优势
✧ 可视化:Tableau支持多种发布方式,可导出静态文件,通过web页面查询并对页面进行批注,针对不同使用人员可设定查看权限。
✧ Tableau 页面采用拖拽方式实现图表配置和转换,操作便捷,结合其具备强大的内存计算能力,可快速得到配置结果,响应分析需求。
✧ Tableau简单易用,不对操作人员提出过高要求,不需数据分析专业知识,经过简单培训即可掌握使用方法。
数据源管理
✧ Tableau Desktop 支持各种数据源类型,包括 Microsoft Office 文件、SQL 数据库、逗号分隔文本文件和多维数据库等
✧ 连接数据源后可以对数据源进行编辑、重命名、复制数据源、替换数据源等操作。
✧ 一个数据源中多个表可以通过联接“合并”。
✧ 数据融合指在单个工作表上融合来自多个数据源的数据。
实际操作
连接到数据源
数据源相关操作
编辑数据源
数据源重命名
查看数据
查看数据源属性
刷新数据源
复制数据源
提取数据
替换数据源
添加到已保存的
数据源
创建联接表Tableau把数据分为两种主要的类型:维度和度量。
维度是一个独立的字段,一般代表类别,用作汇总等计算时的分类,比如统计期间、单位和指标名称等。
度量是可以被聚合或用于计算的字段,它的值依赖于一个或多个维度,通常是定量字 段或计算字段,如金额、数量或频率等。
维度通常作为行/列的字头,产生类别标题;度量通常作为绘制或生成的标记的值。
分析表制作—筛选器筛选就是缩小图或表的查询范围,使其仅显示与当前需求相关的数据。Tableau提供丰富的筛选器条件设置,以及多种筛选器类型,合理使用筛选器是创建分析表的重要条件。计算字段是一个自定义计算,该计算可用数据源中已有维度和度量的各种组合并结合内置的多种计算符和函数来创建一个自定义结果,所得到的计算字段与已有的维度和度量一起显示在“数据窗口”中的“维度”或“度量”区。与其他字段一样,计算字段也可以随意拖放到工作表中。
✧ 特点与优势丰富的可视化界面:条形图、面积图、饼图、折线图、气泡图、基本表、地图、压力图、树形图、圆视图、标靶图、甘特图、瀑布图、线箱图、路径图、散点图
✧ 内容组织
✧ 一个项目的成果都是由一张或多张仪表板组成,当分析表创建好后,一张或多张分析表被整合到一张或多张仪表板中。同时,Tableau支持把多张仪表板整合到一个故事中,通过一个故事展示分析内容。
✧ 导出发布
Spss Modeler 产品及概述
Modeler的操作与数据分析的一般流程相吻合,包括数据收集,数据展示和预处理、模型建立、模型评价等环节, Modeler形象地将这些环节表示成若干节点,将数据分析过程看成数据在各个节点之间的流动,并通过一个图形化的“数据流”直观表示整个数据分析过程。
成功安装并启动Modeler后会出现主窗口, Modeler主窗口由数据流编辑区和三个窗口组成。
1.数据流编辑区域:建立和编辑Modeler数据流的区域。
2.节点工具箱窗口:数据流是由多个节点组成,工具箱中分类存放Modeler的所有节点工具。这些节点均以图标形式显示,可实现数据采集、数据展示、数据(包括变量和样本)预处理、数据建模以及模型评价等功能。它们被分别放置在“源”、“记录选项”、“字段选项”、“图形”、“建模”、“输出”和“导出”选项中,其中常用节点集中放置在“收藏夹”选项卡中。呈黄色背景显示的选项卡为当前选项卡。
3.流管理窗口:由流、输出、模型三张选项卡组成。可在流选项卡中新建、打开、关闭、保存数据流。 输出选项卡中存放着执行数据流后生成的各种数据表,模型选项卡中存放着执行数据流后生成的各种模型计算结果。
4.项目管理窗口:多条数据流可组成一个数据挖掘项目。当数据挖掘任务较庞大而建立了很多数据流时,可自行将流管理窗口中的服务于不同目标的数据流,分别存放到不同目录中。
特点与优势
提供多种数据接入方式:包括主流数据库、Excel、Csv等数据文件。
算法全面:包括主流的数据统计分析方法及校验方法,例如:正态分布、泊松分布、协方差、方差等。
产品概述
1.选择和管理节点。
由于节点所实现的功能不同,因此被放置在不同的选项卡中。建立数据流时,根据实际需要,首先通过鼠标单击选择相应的选项卡,然后再通过鼠标双击或鼠标拖动操作,将某个节点工具选中并添加到数据流编辑区域中。包含如下选项卡:
收藏夹(Favorites)选项卡:存放数据流建立过程工程中最常用的节点工具。
2.节点连接和连接调整。
当数据流编辑区域中有两个节点A、B时,可通过有向线段实现A、B的连接。最方便的方法是鼠标右击节点A,按快捷键F2,指定将第一节点A和第二节点B相连。
删除节点A、B之间的连接。鼠标右击相应的有向线段,选择弹出菜单中的删除连接(Delete Connection)选项。
3.设置节点参数。
节点是用来处理数据的,需要对某些节点针对数据处理的方式设置参数。双击相应节点,或者右击相应节点,选择弹出菜单中的编辑(Edit)即可。
4.执行数据流。
当数据流建立完成后,若要得到数据分析结果,则需要执行数据流。选择主菜单工具->运行(Tools->Execute),或右击会得结果的节点,选择弹出菜单中的运行(Execute)。
常用节点工具
源(Sources)选项卡中的变文件(Var.File)节点、Excel节点。
可变文件节点可读入自由格式的文本文件,最常见的为”.csv”和“txt”文件;Excel节点读入的数据格式为“.xls”、“.xlsx”。
记录选项(Record Ops)选项卡中的选择(Select)节点、合并(Merge节)节点、追加(Append)节点。
选择节点通过表达式设置筛选条件;合并节点和追加节点对多个数据源进行合并。
字段选项(Field Ops)选项卡中的类型(Type)节点、过滤(Filter)节点、导出(Derive)节点、分区(Partition)节点。
类型节点可指定变量的角色(输入、输出等);过滤节点过滤掉一些后续分析不需要的变量;导出节点对已经存在的变量,通过给定一些计算公式等生成新的变量; 分区节点对样本进行分割,如将样本分为训练集合测试集。
图形(Graphs)选项卡中的图(Plot)节点和多重散点图(Multiplot)节点。
图节点指定X和Y轴的变量(每个坐标轴只能指定一个变量),描绘相应的散点图;多重散点图节点指定X和Y轴的变量,Y轴变量可以是多个,描绘相应的折线图。
本文来源:https://www.2haoxitong.net/k/doc/b1f08355fd0a79563d1e7224.html
文档为doc格式