• excel电子表格文件 > 高等学校统计分析软件系列教材SPSS for Windows 统计产品和服务 ...
  • 高等学校统计分析软件系列教材SPSS for Windows 统计产品和服务 ...

    免费下载 下载该文档 文档格式:TXT   更新时间:2011-09-14   下载次数:0   点击次数:12
    高等学校统计分析软件系列教材 
    
    
    SPSS 
    for 
    Windows
    统计产品和服务解决方案教程
    
    
    洪楠主编
    林爱华侯军副主编
    
    清华大学出版社
    北方交通大学出版社 
    ·北京.. · 
    
    
     
    内容简介
    SPSS(Statistical Package for the Social Science, 社会科学统计软件包)for Windo ws 是当今国际上最流行的视窗
    统计软件包之一,也是世界上用户较多的统计分析软件系统。近年来,它自身的进步令人惊奇,尤其是2001 年
    9 月正式推出的v11.0 版本,无论在功能、界面和与汉字的兼容性方面均比以往的版本改进很多,面貌焕然一
    新。现在的SPSS/ Win(v11.0)的含意是Statistical Product and Service Solutions(统计产品和服务解决方案)。
    本书以新颖的方式,应用大量的实例介绍SPSS/ Win (v11.0)中的多种统计分析( A nalyze)方法,包括统计
    报表( Reports)与常用报表( Custom Tables),描述性统计分析( Descriptive Statistics),均数比较分析( Co m pare 
    M eans),一般(广义)线性模型( General Linear M odel),相关分析(Correlation),回归分析( Regression),分类分析
    (Classify),数据简化(降维)分析( Data Reduction),尺度(量表)分析(Scale),非参数检验( Nonpara m etric Tests), 
    时间序列分析( Time Series), 生存分析(Survival)以及多重反应分析( M ultiple Response)等,并对输出结果作出
    统计学的分析与推断。此外,还介绍了SPSS/ Win(v11.0)的基础知识与作图( Graphs)方法的技能与技巧。
    本书的内容与方法广泛适用于自然科学、社会科学,特别是经济学、生物学、金融学与医疗卫生保健等多
    学科、多专业、多层次的需要,可供高等院校、科研单位相关专业研究生、科技人员、大学生与企事业单位计算
    机实际工作者使用。
    版权所有,翻印必究。
    本书封面贴有清华大学出版社激光防伪标签,无标签者不得销售。 
    图书在版编目(CIP)数据 
    SPSS for W indows 统计产品和服务解决方案教程/ 洪楠主编.—北京:北方交通大学出版社,2003.2 
    (高等学校统计分析软件系列教材) 
    ISB N 7-81082-120-2 
    Ⅰ.S... Ⅱ.洪... Ⅲ.统计产品-软件包, SP SS-高等学校-教材 Ⅳ. C819 
    中国版本图书馆CIP 数据核字(2003)第006409 号
    责任编辑: 李 莉 谭文芳
    印刷者: 北京东光印刷厂
    出版发行: 北方交通大学出版社 邮编: 100044 电话: 010 - 51686045 62237564 清华大学出版社 邮编: 100084 
    经 销: 各地新华书店
    开 本: 787×1092 1/ 16 印张: 36 字数: 899 千字 附光盘:1 张
    版 次: 2003 年4 月第1 版 2003 年4 月第1 次印刷
    印 数: 5000 册 定价: 55.00 元(含光盘)
     
    前 言
    
    
    人类已进入信息时代,要在大量的信息中获得有科学价值的结果,必须对采集的信息进行
    存储、整理、计算、统计分析(Analyze)和图表(Graphs)绘制,可以借助于计算机统计软件包,来
    实现这些繁冗的数据处理工作,从而达到揭示阐明客观事物变化规律的目的。
    
    SPSS(StatisticalPackagefortheSocialScience,社会科学统计软件包)for Windows是当今
    国际上最流行的视窗统计软件包之一,也是世界上用户较多的统计分析软件系统。近年来,它
    自身的进步令人惊奇,尤其是.. 2001年.. 9月正式推出的.. v11.0版本,无论在功能、界面和与汉字
    的兼容性方面均比以往的版本改进了很多,面貌焕然一新。现在.. SPSS/ Win(v11.0)的含意是
    Statistical Product and Service Solutions(统计产品和服务解决方案)。
    
    本书作者以往曾编著.. SPSS/ Win(v6.0),SPSS/ Win(v9.0),这些书曾多次用于大学生、研
    究生、进修教师和培训班学员的使用教材,也有很多高等学校采用其作为教材或科学研究的必
    备工具书。作者积累了多年来的教学与科研经验,汇集了广大读者的宝贵意见,本书是在此基
    础上,并对SPSS/ Win最新版本(v11.0)的内容深入研究和进一步完善之后而撰写的。
    
    本书由洪楠、林爱华、侯军、李志辉、蔡秀君、梁秉常、冼利青与罗平集体编写完成。由洪楠
    任主编,林爱华、侯军任副主编。
    
    在本书的编写过程中,中山大学副校长谭绪昌教授及胡孟璇教授、方积乾教授、邹赛德教
    授均给予了热情鼓励与指导,中山医科大学卫生统计学教研室、计算机中心的同事们给予了大
    力支持,此外,还得到了中山大学领导的支持,作者在此深表感谢。
    
    北方交通大学出版社总编辑卢先河博士对本书的出版给予了支持,他付出了很多智慧与
    劳动,作者在此一并表示感谢。
    
    由于编者的水平有限,编写时间仓促,错误之处,在所难免,敬请读者批评指正。
    
    反馈意见,请发电子邮件(E-mail)至:hopejun@21cn.com或hongnan@163.net。
    
    洪楠
    广州,中山大学
    2003年 
    4月 
    
    
    ·Ⅰ· 
    
    
     
    目录
    
    
    第 
    1篇SPSS/ 
    Win基础
    
    第1章 
    SPSS11. 0 
    forWindows概述 
    ....................... ( 3 ) 
    
    1. 1统计分析.. ............................... ( 3 ) 
    
    1. 2作图.. ................................. ( 5 ) 
    
    1.3 SPSS11.0for Windows的运行环境.. .................... (6) 
    
    1.4 SPSS11.0for Windows的启动与退出.. ................... (6) 
    
    1.5SPSSfor Windows的主画面.. ....................... (7)
    第 
    2章 
    SPSS 
    forWindows入门 
    ......................... (12) 
    
    2. 1鼠标的操作.. .............................. (12) 
    
    2. 2数据的录入.. .............................. (12) 
    
    2. 3数据文件的调用与储存.. ......................... (16) 
    
    2.4SPSS的基本操作与文件类型.. ...................... (17)
    第 
    3章缺失值与数据整理 
    ........................... (18) 
    
    3. 1缺失值.. ................................ (18) 
    
    3. 2数据整理.. ............................... (19) 
    
    3.2.1个案排序.. ............................. (19) 
    
    3.2.2选择个案.. ............................. (23) 
    
    3.2.3个案加权.. ............................. (31) 
    
    3. 2. 4合并数据文件.. ........................... (33)
    第 
    4章数据转换 
    ............................... (36) 
    
    4. 1方差齐性检验实例.. ........................... (36) 
    
    4. 2百分位数的.. logit变换.. .......................... (39) 
    
    4. 3资料的分组.. .............................. (43)
    第 
    5章SPSS中的函数 
    ............................. (47) 
    
    5. 1计算(赋值) .............................. (47) 
    
    5. 2索引函数的操作.. ............................ (47) 
    
    5. 3常用函数参数.. ............................. (47) 
    
    5. 4常用函数类型.. ............................. (48) 
    
    5.4.1算术函数.. ............................. (48) 
    
    5.4.2转换函数.. ............................. (48) 
    
    5. 4. 3累计分布函数.. ........................... (49) 
    
    5. 4. 4日期和时间函数.. .......................... (50) 
    
    5. 4. 5逆分布函数.. ............................ (50) 
    
    5.4.6逻辑函数.. ............................. (51) 
    
    5. 4. 7缺失值函数.. ............................ (51) 
    ·Ⅲ·.. 
    
     
    5. 4. 8函数中的缺失值.. .......................... (51) 
    
    5. 4. 9概率密度函数.. ........................... (51) 
    
    5. 4. 10随机变量函数.. .......................... (52) 
    
    5. 4. 11统计函数.. ............................ (53) 
    
    5. 4. 12字符串函数.. ........................... (53) 
    
    5. 4. 13单侧尾部概率函数.. ......................... (54) 
    
    5. 5二项式分布的应用.. ........................... (54) 
    
    5. 6日期和时间函数的应用.. ......................... (55)
    第 
    6章SPSS的汉化编辑 
    ............................ (57) 
    
    6. 1实例.. ................................. (57) 
    
    6. 2中文编辑.. ............................... (58)
    
    第2篇统计分析
    
    第 
    7章统计报表 
    ............................... (63) 
    
    7. 1在线分层分析.. ............................. (63) 
    
    7. 2个案综合分析.. ............................. (68) 
    
    7. 3按行综合统计报表.. ........................... (74) 
    
    7. 4按列综合统计报表.. ........................... (79)
    第 
    8章描述性统计分析 
    ............................ (84) 
    
    8. 1单变量频数分布分析.. .......................... (84) 
    
    8. 2描述性分析.. .............................. (90) 
    
    8. 3探索性分析.. .............................. (93) 
    
    8. 4列联表分析.. .............................. (98) 
    
    8. 4. 1两样本率的比较.. .......................... (98) 
    
    8.4.2R×2列联表的.. χ2
    检验(多个计数资料比较) ............... (104) 
    
    8. 5比率统计分析.. ............................. (106)
    第 
    9章均数比较分析 
    ............................. (110) 
    
    9. 1平均数分析.. .............................. (110) 
    
    9.2单样本t检验.. ............................. (114) 
    
    9.3独立样本t检验.. ............................ (116) 
    
    9.3.1成组t检验.. ........................... (116) 
    
    9. 3. 2两样本几何均数的比较.. ....................... (118) 
    
    9.4配对样本t检验.. ............................ (121) 
    
    9. 5单因素方差分析.. ............................ (123) 
    
    9. 5. 1含量相等的单因素方差分析.. ..................... (123) 
    
    9. 5. 2含量不等的单因素方差分析.. ..................... (131) 
    
    9. 5. 3几何均数的单因素方差分析.. ..................... (132)
    第 
    10章一般(广义)线性模型 
    ......................... (138) 
    
    10. 1单变量方差分析.. ........................... (138) 
    
    10. 1. 1随机区组设计方差分析.. ...................... (138) 
    
    10. 1. 2A×.. B析因实验设计方差分析.. .................... (146) 
    ·Ⅳ·.. 
    
     
    10. 2协方差分析.. ............................. (151) 
    
    10. 2. 1完全随机设计协方差分析.. ..................... (151) 
    
    10. 2. 2配伍组设计协方差分析.. ...................... (155) 
    
    10.2.3多元协方差分析.. ......................... (159) 
    
    10. 3多变量方差分析.. ........................... (164) 
    
    10. 3. 1各实验组与对照组均数的比较.. ................... (164) 
    
    10. 3. 2霍特林.. T 2检验.. ......................... (174) 
    
    10. 4多元方差分析.. ............................ (183) 
    
    10. 5重复测量方差分析.. .......................... (191)
    第 
    11章相关分析 
    .............................. (202) 
    
    11. 1双变量相关分析.. ........................... (202) 
    
    11.1.1皮尔逊相关分析.. ......................... (202) 
    
    11.1.2肯德尔相关分析.. ......................... (204) 
    
    11.1.3肯德尔等级(计数资料)相关分析.. ................... (206) 
    
    11. 1. 4斯皮尔曼等级相关分析.. ...................... (207) 
    
    11. 2偏相关分析.. ............................. (209) 
    
    11. 3距离相关分析.. ............................ (211) 
    
    11. 3. 1变量距离相关分析.. ........................ (211) 
    
    11. 3. 2个案距离相关分析.. ........................ (215)
    第 
    12章回归分析 
    .............................. (217) 
    
    12. 1线性回归分析.. ............................ (217) 
    
    12. 1. 1多重线性回归分析.. ........................ (217) 
    
    12. 1. 2趋势面分析.. .......................... (227) 
    
    12. 1. 3加权最小二乘回归分析.. ...................... (231) 
    
    12. 2曲线参数估计法.. ........................... (235) 
    
    12. 3二值多元.. Logistic回归分析.. ...................... (244) 
    
    12.4二值多元(非条件)Logistic回归分析.. ................... (252) 
    
    12. 5多项多元.. Logistic回归分析.. ...................... (256) 
    
    12. 6有序回归分析.. ............................ (263) 
    
    12. 7概率单位法.. ............................. (268) 
    
    12. 8非线性回归分析.. ........................... (273) 
    
    12. 8. 1拟合指数曲线.. ......................... (273) 
    
    12. 8. 2最小一乘法建立直线回归方程.. ................... (278) 
    
    12. 8. 3最小平方距离法(Ⅱ型回归)建立直线方程.. ............... (281) 
    
    12. 9权重估计法.. ............................. (285) 
    
    12. 10二阶段最小二乘回归分析.. ....................... (287) 
    
    12. 11秩回归分析.. ............................. (290)
    第 
    13章分类分析 
    .............................. (294) 
    
    13. 1逐步聚类分析.. ............................ (294) 
    
    13. 2系统聚类分析.. ............................ (300) 
    
    13.2.1样品(Q型)聚类分析.. ....................... (300) 
    
    13.2.2指标(R型)聚类分析.. ....................... (308) 
    ·Ⅴ·.. 
    
     
    13. 3判别分析.. .............................. (311)
    第 
    14章因子分析 
    .............................. (321)
    第 
    15章尺度(量表)分析 
    ........................... (331) 
    
    15. 1可靠性分析.. ............................. (331) 
    
    15. 2多维尺度(量表)分析.. ......................... (337)
    第 
    16章非参数检验 
    ............................. (346) 
    
    16.1单样本.. χ2
    检验.. ............................ (346) 
    
    16. 2二项式检验.. ............................. (350) 
    
    16. 3游程检验.. .............................. (351) 
    
    16. 4单样本柯尔莫哥罗夫-斯米尔诺夫检验.. .................. (353) 
    
    16. 5两独立样本非参数检验.. ........................ (356) 
    
    16. 5. 1计量资料.. ........................... (357) 
    
    16. 5. 2频数表(或等级)资料.. ....................... (359) 
    
    16. 6多个独立样本非参数检验.. ....................... (363) 
    
    16. 6. 1计量资料.. ........................... (363) 
    
    16. 6. 2频数表(或等级)资料.. ....................... (366) 
    
    16. 7两相关样本非参数检验.. ........................ (369) 
    
    16. 8多个相关样本非参数检验.. ....................... (372) 
    
    16. 9Ridit分析.. .............................. (375) 
    
    16.9.1样本与总体比较的Ridit分析.. .................... (375) 
    
    16.9.2两样本比较的.. Ridit分析.. ...................... (378) 
    
    16.9.3多个样本比较的Ridit分析.. ..................... (380)
    第 
    17章生存分析 
    .............................. (384) 
    
    17. 1寿命表.. ............................... (384) 
    
    17.1.1两样本的寿命表.. ......................... (384) 
    
    17. 1. 2频数表资料的寿命表.. ....................... (407) 
    
    17. 2卡卜兰-迈尔方法.. ........................... (411) 
    
    17. 3Cox回归分析.. ............................ (431) 
    
    17.4Cox带时间-依赖协变量回归分析.. .................... (439)
    第 
    18章时间序列分析 
    ............................ (444) 
    
    18. 1指数平滑法.. ............................. (444) 
    
    18. 1. 1常用线性趋势成分法.. ....................... (444) 
    
    18. 1. 2常用指数趋势成分法.. ....................... (448) 
    
    18. 2季节分解法.. ............................. (451)
    第 
    19章多重反应分析 
    ............................ (458) 
    
    19. 1定义多重反应数据集.. ......................... (458) 
    
    19. 2多重反应频数表分析.. ......................... (459) 
    
    19. 3多重反应列联表分析.. ......................... (460)
    第 
    20章常用报表 
    .............................. (464) 
    
    20. 1基本报表.. .............................. (464) 
    
    20. 2一般(广义)报表.. ........................... (468) 
    ·Ⅵ·.. 
    
     
    20. 3多重反应报表.. ............................ (471) 
    
    20. 4频数报表.. .............................. (473)
    
    第3篇作图
    
    第21章画廊 
    ................................ (479)
    第 
    22章交互绘图 
    .............................. (481) 
    
    22. 1交互绘图(条形图) .......................... (481) 
    
    22. 2交互绘图(饼形图) .......................... (485)
    第 
    23章条形图 
    ............................... (487) 
    
    23. 1简单条形图.. ............................. (487) 
    
    23. 2整群条形图.. ............................. (491) 
    
    23. 3成堆条形图.. ............................. (492)
    第24章线图 
    ................................ (494) 
    
    24. 1简单线图.. .............................. (494) 
    
    24. 2多重线图.. .............................. (496) 
    
    24. 3下降线图.. .............................. (496)
    第 
    25章饼形图 
    ............................... (498)
    第 
    26章箱形图 
    ............................... (501) 
    
    26. 1简单箱形图.. ............................. (501) 
    
    26. 2整群箱形图.. ............................. (502)
    第27章 
    P-P图 
    ............................... (504)
    第 
    28章R 
    O 
    C曲线(受试者工作特征曲线) 
    .................... (507) 
    
    28. 1连续型资料.. ............................. (507) 
    
    28. 2有序分类型资料.. ........................... (511)
    
    第4篇编程模块
    
    第 
    29章典型相关分析 
    ............................ (517)
    第 
    30章编程描述性统计分析 
    ......................... (521)
    
    附录 
    ASPSS/ 
    Win变量与显著性的表达方式 
    ................... (523)
    附录B练习题 
    ................................ (525)
    附录 
    CSPSS/ 
    Win(v11.0)数据文件的使用说明 
    .................. (530)
    附录 
    D关于 
    SPSS/ 
    Win(v11.0)的有关信息 
    .................... (531)
    附录 
    E英汉词汇表 
    .............................. (533)
    参考文献 
    ................................... (566) 
    
    ·Ⅶ·.. 
    
     
    第1篇 
    SPSS/Win基础
    
    
     
    第1章 
    SPSS11. 0 
    forWindows概述
    
    
    SPSS(StatisticalPackagefortheSocialScience,社会科学统计软件包)是由美国.. SPSS公司在
    20世纪80年代初开发的大型统计学软件包。其最初几个版本是基于.. DOS环境的,虽然功能较
    强,但在用户界面、输入/输出环境等方面并不十分理想。20世纪90年代以来,由于MS Windows
    的普及,SPSS公司于1992—1994年相继推出了基于.. Windows操作系统的5 .0,6.0及6 .1版本,
    随着.. Windows95与.. WindowsNT3 .5以上版本的32位操作系统的出现,SPSS公司于1995年以
    后推出了SPSSfor Windows95/NT的7 .0,7.5,8.0,9.0,10.0版本,2001年9月又推出SPSS 
    
    11.0for Windows版本。随着产品服务领域的扩大和服务深度的增加,自SPSS11 .0起,SPSS的
    英文全称改为.. “StatisticalProductandServiceSolutions”,即统计产品和服务解决方案。
    2001年推出的SPSS 11 .0版本,除保持了以往SPSS的诸多优点外,还汇集了SASfor
    Windows与STATISTICAfor Windows的长处,是当今世界上最新、最流行、最受欢迎的统计
    软件包之一。SPSS 11. 0具有以下特点。.. 
    
    (1)SPSS11.0在.. Windows98与.. WindowsNT4.0及以上.. Windows2000/ Me/XP版本运
    行时,能充分发挥.. 32位操作系统的优势。.. 
    (2) SPSS 11.0具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。
    (3)操作更加简单,SPSS11.0的工具栏提供了方便用户进行各种不同操作的按钮,用户
    也可以根据不同的需要增加或者减少各种操作按钮。同时.. SPSS 11 .0还具有记忆功能,能够
    记住用户最近打开的数个文件以及当前执行的统计分析及作图的操作。
    (4)随着统计学的发展以及用户的需要,SPSS 11 .0增添了近年来统计学研究的最新成
    果。SPSS 11. 0具有强大的自动功能,用户可使多种任务自动化,操作更简单、方便。
    (5)Internet的功能,通过.. SPSS可直接访问.. SPSS公司的主页,了解产品的新动向,同时.. 
    SPSS11.0的运算结果可以转换成.. HTML(超文本链接标识语言)格式输出。
    (6)详细的在线帮助(Help)信息。SPSS根据不同层次的用户提供不同的帮助,对于初次
    接触SPSS 11 .0的用户,统计辅导(Statistics Coach)以及自学指导(Tutorial)将带您入门;而精
    通SPSS/PC+编程的用户,语法指南(Syntax Guide)可提供详尽的语法指导以及大量源程序;
    同时在使用过程中可以非常方便地获得相关的帮助信息,用户还可以直接链接到.. SPSSInter net
    主页,查询有关该软件的最新信息。
    (7)更新颖的输出外观。统计结果在输出浏览器(Output Navigator)中显示,在结果浏览
    器中能够方便地实现修改、移动各类统计过程产生的数据透视表、图形以及文本结果。
    (8)强大的文件转换功能。SPSS 11.0能够读取.. 16种及输出14种格式的文件,能够把
    SPSS的图形转换成7种图形文件,结果文件可保存为TXT及.. HTML格式的文件。.. 
    (9) SPSS 11.0自带13种类型179个函数,能充分满足各个方面用户的需要。.. 
    1.1统计分析 
    SPSS11.0for Windows统计分析(Analyze)模块,有如下17个主命令,68个子命令。
    
     
    第 
    1篇SPSS/ 
    Win基础
    
    (1)统计报表(Reports):在线分层分析(OLAP Cubes)、个案综合分析(CaseSummaries)、
    按行综合统计报表(ReportSummariesin Rows)和按列综合统计报表(ReportSummariesinColumns)。
    (2)描述性统计分析(Descriptive Statistics):单变量频数分布分析(Frequencies)、描述性
    分析(Descriptives)、探索性分析(Explore)、列联表分析(Crosstabs)和比率分析(Ratio)。
    (3)常用报表(Custom Tables):基本报表(Basic Tables)、一般报表(General Tables)、多重
    反应报表(Multiple Response Tables)和频数报表(TablesofFrequencies)。
    (4)均数比较分析(Compare Means):平均数分析(Means)、单样本t检验(One -SampletTest)、独立样本t检验(Independent-Samplest Test)、配对样本t检验(PairedSamplest Test)
    和单因素方差分析(One -Way ANOVA)。
    (5)一般(广义)线性模型(GeneralLinear Model):单变量方差分析(Univariate)、多变量
    方差分析(Multivariate)、重复测量方差分析(Repeated Measures)和方差分量估计法(VarianceComponents)。
    (6)混合模型(Mixed Models):混合线性模型(Linear)。
    (7)相关分析(Correlate):双变量相关分析(Bivariate)、偏相关分析(Partial)和距离相关分
    析(Distances)。
    (8)回归分析(Regression):线性回归分析(Linear)、曲线参数估计法(Curve Estimation )、
    二值多元Logistic回归分析(Binary Logistic)、多项多元Logistic回归分析(MultinomialLogis tic)
    、有序回归分析(Ordinal)、概率单位法(Probit)、非线性回归分析( Nonlinear)、权重估计法
    ( Weight Estimation)、二阶段最小二乘回归分析(2-Stage Least Squares)和最优尺度分析(Opti mal 
    Scaling)。
    (9)对数线性分析(Loglinear):一般对数线性分析(General)、分对数分析(Logit)和模型选
    择( Model Selection)。
    (10)分类分析(Classify):逐步聚类分析(K-Means Cluster)、系统聚类分析(HierarchicalCluster)和判别分析(Discriminant)。
    (11)数据简化分析(Data Reduction):因子分析(Factor)、对应分析(Correspondenc Analysis)
    和最优尺度分析(Optimal Scaling)。
    (12)尺度(量表)分析(Scale):可靠性分析(Reliability Analysis)、多维尺度分析(Multidi mensional 
    Scaling)和多维邻近尺度分析(M ultidimensional Scaling (PRO XSCAL))。
    (13)非参数检验(Nonparametric Tests): χ2
    检验(Chi-Square)、二项式检验(Binomial)、游
    程检验(Runs)、单样本哥尔莫格罗夫.. -斯米尔罗夫检验(Kolmogorov-Smirnov,1-Sample K-S)、
    两独立样本非参数检验(2IndependentSamples)、K项独立样本非参数检验(K IndependentSamples)、两相关样本非参数检验(2 Related Samples)和.. K项相关样本非参数检验(K RelatedSamples)。
    (14)时间序列分析(TimeSeries):指数平滑法(ExponentialSmoothing)、自回归分析(Autoregression)
    、综合自回归移动平均模型(ARIM A)和季节分解法(Seasonal Decomposition)。
    (15)生存分析(Survival):寿命表(Life Tables)、卡卜兰.. -迈尔方法(Kaplan-Meier)、Cox
    回归分析(Cox Regression)和Cox带时间.. -依赖协变量回归分析(Cox w/Time-DepCov)。
    (16)多重反应分析(Multiple Response):定义多重反应分析数据集(DefineSets)、多重反
    应频数分析(Frequencies)和多重反应列联表分析(Crosstabs)。.. 
     
    第1章 
    SPSS11. 0 
    forWindows概述
    
    (17)缺失值分析(Missing ValueAnalysis)。.. 
    1.2作图
    作图(Graphs)模块能简明生动、形象直观地表达统计资料。SPSSfor Windows的作图功
    能很强,在做统计分析过程中,用户可以选用多种相应的图形,也可以直接由作图菜单中产生
    图形,并加以修饰、编辑。SPSSfor Windows能提供19种基本作图类型,并能绘制35种以上
    图形。
    
    (1)画廊(Gal
    llery):提供17种主要图形的轮廓。
    (2)交互绘图(Interactive):分别有条形图(Bar),圆点图(Dot),线图(Line),带状图(Ribbon),
    下降线图(Drop-Line),面积(区域)图(Area),饼形(圆形)图(Pie)(包含:简单饼形(圆形)
    图(Simple)、整群(分组)饼形(圆形)图(Clustered)、饼形(圆形)图示(Plotted)),箱形图(Boxplot),
    误差条形图(Error Bar),直方图(Histogram),散点图(Scatterplot)图形。
    (3)地图(Map)。
    (4)条形图(BarCharts):简单条形图(Simple)、整群(分组)条形图(Clustered)、成堆(分
    段)条形图(Stacked)。
    (5)线图(Line Charts):简单线图(Simple)、多重线图(Multiple)、下降线图(Drop-line)。
    (6)面积(区域)图(Area Charts):简单面积(区域)图(Simple)、面积(成堆、堆栈)图
    (Stacked)。
    (7)饼形(圆形)图(Pie Charts)。
    (8)高低图(High-Low Charts):简单高低收盘图(Simple High-low-close)、简单极差图
    (Simple Range Bar)、分组高低收盘图(Clustered High-low-close)、分组极差图(Clustered Rangebar)、距限曲线图(Difference)。
    (9)帕累托图(Pareto Charts):简单帕累托图(Simple)、成堆帕累托图(Stacked)。
    (10)控制图(ControlCharts):平均值、极差、标准差控制图(X-Bar,R,s)、单值.. -移动极差
    控制图(Individuals,Moving Range)、不合格品率与不合格品数控制图(p,np)、缺陷数与单位缺
    陷数控制图(c,u)。
    (11)箱形图(Boxplot):简单箱形图(Simple)、整群箱形图(Clustered)。
    (12)误差条形图(Error Bar Charts):简单误差条形图(Simple)、整群误差条形图(Clustered)
    。
    (13)散点图(Scatterplot):简单散点图(Simple)、重叠散点图(Overlay)、矩阵散点图(Ma-
    trix)、三维散点图(3-D,XYZ)。
    (14)直方图(Histogram)。
    (15) P-P图(P-P Plots)。
    (16) Q-Q图(Q-Q Plots)。
    (17)序列图(Sequence Charts)。
    (18) ROC曲线(ROC Curve, ReceiverOperating Characteristic)(受试者工作特征曲线)。
    (19)时间序列图(TimeSeries):自相关时间序列图(Autocorrelations)、互相关时间序列图.. 
    (Cross-Correlations)、谱系图(Spectral)。
    总之,SPSS11.0for Windows软件比以往版本的统计与作图功能更丰富,可读性更强,易.. 
    
     
    第 
    1篇SPSS/ 
    Win基础
    
    学易用。它的推出,是广大用户的福音。.. 
    
    1.3 SPSS11.0for Windows的运行环境 
    SPSS11.0forWindows能在.. Windows98或WindowsNT3.51及更高版本的Windows 
    2000/ Me/ XP下运行。它要求的基本设置如下。
    
    (1)一个运行.. Windows98操作系统的PC机,本书的实例是在Windows98操作系统支
    持下运行的。
    (2)至少需要32 MB内存。.. 
    (3)S-VGA显示器及装有与.. Windows98兼容的高级图形适配卡。
    (4)整个SPSS11 .0forWindows98/NT约占114 MB硬盘空间。
    (5)双速或四倍速以上CD-ROM驱动器及至少有一个3.5英寸的软驱。
    (6)支持.. Windows98的图形打印机一台。
    (7)鼠标。.. 
    1.4 SPSS11.0for Windows的启动与退出 
    SPSSfor Windows的启动可以按如下两种方法进行。方法一:开机后,启动.. Windows98,
    在桌面的快捷图标(见图1-1)处,双击鼠标左键,立即进入SPSSfor Windows的初始画面(见
    图1-2)。方法二:(单击)【开始】..【程序】.... (双击)
    【SPSS11 .0for Windows】,也可以进入SPSSforWindows
    
    的初始画面(见图1-2),至此,启动.. SPSS系统完毕。
    
    图1-1SPSSforWindows的图标在初始画面SPSSforWindows(见图1-2)中,提示:
    
    What wouldyouliketodo?(你想要做些什么?),它有多种选项提供用户使用。.. 
    
    图1 -2 SPSSfor Windows的初始画面
    
     
    (1) R un the tutorial,运行自学指导。
    (2) T ype in data,选用数据类型。
    (3) R un an existing query,运行一个已经存在的查询问题。
    (4) Create ne w query using Database Capture W izard,用数据库捕获向导建立一个新查询。(5) O pen an existing file,打开一个已经存在的文件。
    (6) O pen another type of file, 打开另一个文件的类型。
    (7) D on’t sho w this dialog in the future,往后不必显示这个对话框。
    SP SS for W indo ws 的退出也有两种途径。方法一:单击画面右上角的【×】.. 【开始】.. 
    【关闭系统】.. 【关闭计算机】(见图1-3) ..【是】, 确认关机。方法二: 单击【File】.. 【E xit 
    SP SS】.. 【关闭系统】.. 【关闭计算机】.. 【是】,确认关机。退出S PSS 系统及关闭计算机系
    统完毕。
    如果用户本次操作已激活了SP SS 的视窗Data(数据),或O utput(输出结果),或Syntax 
    (语法程序),并将有关内容作为文件存盘,则系统直接退出SP SS。否则,系统会自动提示:是
    否保存视窗Data(数据)(见图1-4),或是否保存视窗O utput(输出结果)(见图1-5),或是否保
    存视窗Syntax(语法程序)(见图1-6)。用户可单击【是】或【否】,然后退出SP SS 系统。
    图1-3 “关闭Windo ws”对话框图1-4 保存数据对话框
    图1-5 保存输出结果对话框图1-6 保存语法程序对话框
    1. 5 SPSS for W indo ws 的主画面
    SP SS for W indo w s 被启动后,立即展示SP SS for W indow s 的主画面(见图1-7)。
    主画面上的菜单栏由10 个下拉式菜单组成。
    1. File,文件操作 
    .. Ne w ,建立新的文件。☆ Data, 建立新的数据文件。 
    ☆ Syntax, 建立新的语法命令程序文件。 
    ☆ O utput, 建立新的输出结果文件。 
    ☆ Draft O utput, 设计新的草稿输出结果文件。
    第1 章 SP SS 11. 0 for W indo ws 概述7
     
    图1-7 SPSS for Windows 的主画面 
    ☆ Script, 建立新的手稿文件。
    .. O pen,打开文件, 读取数据文件。☆ Data, 打开数据文件。 
    ☆ Syntax, 打开语法命令程序文件。 
    ☆ O utput, 打开输出结果文件。 
    ☆ Script, 打开手稿文件。 
    ☆ Other, 打开其他文件。
    .. Database Capture, 数据库捕获。☆ Ne w Q uery, 新的查询。 
    ☆ Edit Q uery, 编辑查询。 
    ☆ R un Q uery, 运行查询。
    .. Read Text Data, 阅读文本文件。
    .. Save, 储存当前数据文件。
    .. Save As, 另存当前数据文件为其他格式类型的数据文件。
    .. Display Data Info, 显示数据信息。
    .. A pply Data Dictionary, 应用数据目录。
    .. Cache D ata, 隐藏数据。
    .. Print, 打印。
    .. Print Previe w, 打印预览。
    .. S witch Server, 切换服务。
    .. Stop Processor, 停止SP SS 信息处理。
    .. Recently U sed D ata, 最近使用的数据。
    .. Recently U sed Files, 最近使用的文件。
    .. E xit, 退出SP SS。
    2. Edit, 数据编辑.. U ndo, 解开, 恢复删除或修改数据。
    .. Redo, 重做。
    .. Cut, 剪切数据(可用Paste 恢复)。
    .. Copy, 复制数据。
    .. Paste, 粘贴数据。
    .. Paste V ariables, 粘贴变量。
    8 第1 篇 SP SS/ W in 基础
     
    .. Clear, 清除数据(不可用Paste 恢复)。
    .. Find, 寻找(搜索)数据。
    .. O ptions, 选择SP SS 参数。
    3. Vie w, 观察(视图) .. Status Bar, 状态条形图。
    .. T oolbars, 工具条形图。
    .. Fonts, 字体。
    .. Grid Lines, 方格线。
    .. V alue Labels, 值的标识。
    .. V ariables, 变量。
    4. Data, 建立数据与数据整理.. Define D ates, 定义日期。
    .. Insert V ariable, 插入变量。
    .. Insert Case, 插入个案。
    .. Sort Cases, 个案排序。
    .. Transpose, 行列转置。
    .. Restructure, 重新组织。
    .. M erge Files, 合并文件。☆ A dd Cases, 增加个案。 
    ☆ A dd V ariables, 增加变量。
    .. A ggregate, 汇总文件。
    .. Split File, 分裂(分割)文件。
    .. Select Cases, 选择个案。
    .. W eight Cases, 个案加权。
    5. Transform, 变量变换.. Co m pute, 计算(新变量赋值)。
    .. R ando m N u m ber Seed, 产生随机数种子。
    .. Count, 计数。
    .. Recode, 重新编码。☆ Into Sa m e Variables, 用相同的变量。 
    ☆ Into Different V ariables, 用不同的变量。
    .. Categorize V ariables, 分类变量。
    .. R ank Cases, 排行个案, 个案编秩。
    .. A uto m atic R ecode, 自动重新编码。
    .. Create Tim e Series, 建立时间序列。
    .. Replace M issing V alues, 替代缺失值。
    .. R un Pending Transfor ms, 运行待解决的变量变换。
    第1 章 SP SS 11. 0 for W indo ws 概述9
     
    6. Analyze, 统计分析.. Reports, 统计报表。
    .. Custo m T ables, 常用报表。
    .. Descriptive Statistics, 描述性统计分析。
    .. Co m pare M eans, 均数比较分析。
    .. G eneral Linear M odel, 一般(广义)线性模型。
    .. M ixed M odels, 混合线性模型。
    .. Correlate, 相关分析。
    .. Regression, 回归分析。
    .. Loglinear, 对数线性分析。
    .. Classify, 分类分析。
    .. Data R eduction, 数据简化分析。
    .. Scale, 尺度(量表)分析。
    .. N onpara m etric Tests, 非参数检验。
    .. Tim e Series, 时间序列分析。
    .. Survival, 生存分析。
    .. M ultiple Response, 多重反应分析。
    .. M issing V alue A nalysis, 缺失值分析。
    7. Graphs, 作图.. G allery, 画廊(图形描述)。
    .. Interactive, 交互绘图。
    .. M ap, 地图。
    .. Bar, 条形图。
    .. Line, 线图。
    .. Area, 面积(区域)图。
    .. Pie, 饼形(圆形)图。
    .. High-Lo w , 高低图。
    .. Pareto, 帕累托图。
    .. Control, 控制图。
    .. Boxplot, 箱形图。
    .. Error Bar, 误差条形图。
    .. Scatter, 散点图。
    .. Histogra m , 直方图。
    .. P-P, P-P 图。
    .. Q- Q , Q- Q 图。
    .. Sequence, 序列图。
    .. R O C C urve, R O C 曲线(受试者工作特征曲线)。
    .. Tim e Series, 时间序列图。
    10 第1 篇 SP SS/ W in 基础
     
    作图( Graphs)菜单下有更详细的各级子菜单项。
    8. Utilities, 实用程序.. V ariables, 变量。
    .. File Info, 文件信息。
    .. Define Sets, 定义设置。
    .. U se Sets, 使用设置。
    .. R un Script, 运行手稿文件。
    .. M enu Editor, 菜单编辑。
    9. W indo w , 视窗控制.. M inimize All W indow s, 最小化所有的视窗。
    10. Help, 在线帮助(辅助说明) .. T opics, 论题。
    .. T utorial, 自学指导。
    .. S PSS H o m e Page, SP SS 主页。
    .. Statistics Coach, 统计辅导。
    .. A bout, 关于SP SS。
    第1 章 SP SS 11. 0 for W indo ws 概述11
     
    第2 章 S P S S for W indo w s 入门
    SP SS for W indo ws ( SP SS/ W in ) 环境下的操作, 既可以使用键盘, 也可以使用鼠标
    ( M ouse)。但SP SS 11.0 for W indo ws 是借助于SP SS/ W in 环境下的视窗图形界面,利用鼠标
    可以既方便又快捷地完成大多数操作。
    2.1 鼠标的操作
    鼠标用以控制屏幕上的一个光标,该光标用以指示屏幕上的操作位置。一般鼠标都具有
    两个或三个按键,而常用的键是指鼠标的左键。本书中,如果没有特殊声明,按击键都是指按
    击鼠标的左键。
    (1) 移动光标:用户移动手上的鼠标,屏幕界面上的光标位置随之移动,用以选取屏幕上
    的图标(Icon)。
    (2) 单击:按左键一次。通常用于选择光标所指向的图标或项目。
    (3) 双击:快速连续按两次左键,通常用于执行某一动作。
    (4) 拖曳( Drag):按住左键不放,移动图标或项目到达某一特定位置,再放开鼠标键。
    (5) 光标形状:在正常情况下,光标以箭头形状指示当前的位置。
    2.2 数据的录入
    利用S PSS 软件对数据进行分析,首先要建立数据文件,下面用一个实例(见表2-1)说明
    数据的录入方法,即建立数据文件( ndata.sav)的过程。
    表2-1 某地10 例妇幼体检资料
    编 号
    no 
    儿童姓名
    na m e 
    母亲文化
    educ 
    出生日期
    birth 
    出生体重
    w (kg) 
    出生身高
    h(c m) 
    免疫时间
    tim e 
    1 李安棋小学1987.06.30 2.80 40.00 1997.08.02 2 周小亮大学1982.12.15 1.90 44.00 1996.10.10 3 叶 静高中1993.04.21 3.00 46.21 1998.09.02 4 欧阳德仪初中1991.11.07 3.35 47.12 1998.06.15 5 程德忠不详1993.05.21 2.56 45.70 1999.05.14 6 王爱华硕士1990.11.14 2.68 44.25 1998.12.23 7 辜世琳小学1992.02.01 3.05 45.65 1997.10.25 8 高 超博士1993.12.21 3.12 47.58 1999.01.21 9 谭易镜大学1992.12.25 3.04 46.80 1998.10.20 10 张茹芬高中1991.12.08 3.01 47.60 1997.11.12 本例的变量( V ariables)特征如表2-2 所列。
     
    第 
    2章 
    SPSS 
    forWindows入门13
    
    表2 
    -2数据文件的变量特征
    
    变量名中文标识数据类型宽度说明.. 
    no编号数值型.. 2即顺序号.. 
    name儿童姓名字符型.. 8最多输入.. 8个.. ASCII字符或.. 4个汉字.. 
    educ母亲文化程度数值型.. 4代码.. :1 -小学.. ,2 -初中.. ,3 -高中.. , 
    4 -大学.. ,5 -硕士.. ,6 -博士.. ,9 -不详.. (缺失.. ) 
    birth儿童出生日期日期型.. 10m m/ dd/ yyyy,即月月.. /日日.. /年年年年形式.. 
    w儿童出生体重数值型.. 4(2)单位.. :kg(千克.. ) 
    h儿童出生身高数值型.. 5(2)单位.. :cm(厘米.. ) 
    time儿童免疫时间日期型.. 10m m/ dd/ yyyy,即月月.. /日日.. /年年年年形式
    
    1)在桌面上,双击【spsswin】图标,立即进入.. Untitled-SPSS Data Editor(默认是.. “SPSS数
    据编辑器”状态)(见图.. 2-1)。
    图2 -1 Untitled-SPSS Data Editor(数据编辑器)对话框
    
    2)建立数据文件的格式。单击【Variable View】(变量观察)(见图2-1),得到如图2-2所示
    窗口。
    图2-2Variable View(变量观察)界面
    
    在Variable View(变量观察)界面中(见图2-2)可进行如下设置。
    .... Name,变量名。变量名可以是英文(本例第一个变量是no),也可以是中文。
    .... Type,变量类型。默认是数值型(Numberic)。
    
    3)单击【Type】,可以得到如图2-3所示对话框。Variable Type(变量类型)对话框的选项
    如下。
    .... Numeric,数值型变量,这是默认格式,默认变量的宽度(Width)是8位,其中小数(Dec imal)
    是2位。本例变量.. no的宽度(Width)是2位,小数(Decimal)是0位。
    .... Comma,带逗点的数值型变量。 
    
    
     
    14第 
    1篇SPSS/ 
    Win基础
    
    .... Dot,带圆点的数值型变量。
    .... Scientific notation,科学记数法。
    .... Date,日期型变量。
    .... Dollar,带美元符号的数值型变量。
    .... Custom currency,自定义货币类型。
    .... String,字符型变量。
    变量可以用中英文标识(Label),本例变量.. no的标识是中文:编号。
    
    图2-3 Variable Type(变量类型)对话框
    
    4)在图2-2所示对话框中,单击【Values】(变量值标识),得到如图.. 2-4所示对话框,本例
    变量.. no没有值标识。
    图2 -4Value Labels(变量值标识)对话框
    
    5)变量缺失值(Missing Values)的表示方式。在图2-2中,单击【Missing】,得到如图2-5
    所示对话框。定义缺失值(Missing Values)的方法有3种(见图2-5)。
    
    .... Nomissingvalues,无缺失值,这是默认格式。
    
    .... Discrete missing values,离散缺失值,最多可定义.. 3种类型缺失值。
    
    .... Rangeplusoneoptionaldiscretemiss,缺失值的范围,指出其最低值与最高值,并可以
    
    增加一个离散缺失值。
    
    6)变量列的宽度(Columns),可由用户选定。
    7)变量的对齐(Align)方式,可以是:左对齐(Left),居中(Center),右对齐(Right)。
    8)变量的度量(Measure),可以是以下几种设置。
    .... Scale,尺度,默认是尺度。
    .... Ordinal,有序数据。 
     
    第 
    2章 
    SPSS 
    forWindows入门15
    
    .... Nomial,名义尺度。
    
    图2-5 Missing Values(缺失值)对话框
    
    9)类似地,可以对变量.. name,educ,birth, w,h和time的特征进行定义(见图2-6)。
    图2-6Variable View(变量格式观察)
    10)在图2-6的下方(此图没给全),单击【Data View】(数据观察),然后依次输入数据,得
    到如图.. 2-7所示的数据文件。至此,数据文件建立完成。.. 
    
    图.. 2 -7数据文件.. ndata.sav
    
     
    16第 
    1篇SPSS/ 
    Win基础
    
    11)将当前的数据文件(见图.. 2-7)以.. ndata.sav文件名存入.. D盘已建立好的.. sp11data文件
    夹中。单击【File】..【Save】..【D \sp11data】..【ndata.sav】..【O K】。.. 
    
    2.3数据文件的调用与储存 
    SPSS/ Win可以调用(读取,访问)16种外部文件,储存(输出)为14种内部数据文件。也
    就是说,SPSS/ Win具有很强的数据转换能力,为用户带来极大的方便。.. 
    
    1.SPSS/ 
    Win可以调用(访问,读取)的 
    16种外部文件
    (1)SPSS(*.sav),在.. Windows,Macintosh,UNIX等操作系统下的SPSS版本所保存的数
    据文件。
    (2)SPSS/PC+(*.sys),SPSS/PC或SPSS/PC+的数据文件。
    (3) Systat(*.syd), SYSTAT的syd数据文件。
    (4) Systat(*.sys), SYSTAT的sys数据文件。
    (5)SPSS Portable(*.por), SPSS可移植格式的数据文件。
    (6) Excel(*.xls), Excel的电子表格文件。.. 
    (7) Lotus(*.w*), Lotus1-2-3格式3.0,2.0,或1A版本的数据文件。
    (8) SYLK(*.slk), SYLK格式的数据文件。
    (9) dBase(*.dbf),dBASE Ⅳ,dBASE Ⅲ,或Ⅲ.. PLUS,dBASE Ⅱ的.. dBASE格式的文件。
    (10) SAS LongFile Name(*.sas7bdat), SAS长文件数据文件。
    (11) SASShortFileName(*.sd7), SAS短文件数据文件。
    (12) SASv6for Windows(*.sd2),SAS/ Winv6数据文件。
    (13) SASv6for Unix(*.ssd01), SAS/ Unixv6数据文件。
    (14) SAS Transport(*.xpt),SAS输送文件。
    (15) Text (*.txt),文本文件。
    (16) Data (*.dat),数据文件。
    由此可见,SPSSv11.0可以读取当前版本.. SAS(Statistical Analysis System,统计分析系
    统)的大部分数据文件。.. 
    
    2.SPSS/ 
    Win可以储存(保存,输出)的 
    14种数据文件
    (1)SPSS(*.sav),SPSS11.0for Windows格式的数据文件。
    (2)SPSS7.0(*.sav), SPSS7.0for Windows格式的数据文件。
    (3)SPSS/PC+(*.sys),SPSS/PC或SPSS/PC+的数据文件。
    (4)SPSS Portable(*.por), SPSS可移植格式的数据文件。.. 
    (5) Tab-delimited(*.dat),以制表符分隔的.. ASCⅡ文本数据文件。
    (6) Fixed ASCⅡ(*.dat),固定格式的.. ASCⅡ文本数据文件。
    (7) Excel(*.xls), MicrosoftExcel的电子表格文件。.. 
    (8)1-2-3 Rel3.0(*.wk3), Lotus1-2-3的电子表格文件3.0版。.. 
    (9)1-2-3 Rel2.0(*.wk1), Lotus1-2-3的电子表格文件2.0版。
    (10)1-2-3 Rel1.0(*.wks), Lotus1-2-3的电子表格文件1A版。.. 
     
    (11) S Y L K (*.slk), S Y L K 格式的数据文件。
    (12) d B A SE Ⅳ (*.dbf), dB A S E Ⅳ 格式的数据文件。
    (13) d B A SE Ⅲ (*.dbf), dB A S E Ⅲ 格式的数据文件。
    (14) d B A SE Ⅱ(*.dbf), dB A S E Ⅱ 格式的数据文件。
    2.4 SPSS 的基本操作与文件类型
    1. 基本操作
    在S PSS/ W in 的任何对话框中,一般都有下面几个基本操作。
    ● O K ,执行已选用的变量与程序,或Continue,继续进行下一步,或者返回到主对话框。● Paste,将语法粘贴到程序视窗中。
    ● R eset,重新设置(或选用)变量或程序。
    ● Cancel,取消任何变动。
    ● H elp,打开M icrosoft H elp,联机帮助,可寻找附加说明。
    2. S P S S/ W in 的文件类型
    ● 数据文件:扩展名是.sav。其数据文件内容可显示在数据编辑器中。
    ● 结果文件:扩展名是.spo。S PSS/ W in 统计分析或作图结果,均以.spo 为扩展名储存。● 语法文件:扩展名是.sps。用户选用视窗中的元件后, SP SS/ W in 将自动生成语法命令程序。单击【Paste】,用户可查看其语法命令程序。选择【R un】,便可得到运行结果。
    还可以将视窗中的语法命令程序以.sps 为扩展名储存。
    第2 章 S PSS for W indo ws 入门17
     
    第 
    3章缺失值与数据整理
    
    
    在科学研究或现场搜集资料的过程中,难免不出现缺失值(Missing Values,或称缺省值、
    遗漏值),为了充分利用原始观测数据的信息,根据研究的目的与观察值数据的特点,首先应选
    择设置缺失值的不同方式,然后采用不同的处理方法。对已建立的数据文件进行编辑、整理,
    才可以对数据进行统计学分析或作出各种统计学图形,得到令人满意的结果。.. 
    
    3.1缺失值 
    SPSS/ Win的数据文件,默认圆点“..”是缺失值。此外,在主菜单的.. Data(整理数据)中
    提供了.. 3种设置缺失值的方式。
    选择【Data】..【Variable View】..【Missing】,得到如图3-1所示的.. Missing Values对话框。
    
    图.. 3-1Missing Values(缺失值)对话框
    
    在图3-1所示对话框中可进行如下缺失值(Missing Values)的设置。
    .... No missingvalues,无需设置缺失值,即除了默认的缺失值用圆点.. “..”表示以外,不再
    另设缺失值,这是默认方式。
    .... Discrete missingvalues,分离缺失值,当选择了此方式时,至少应指明一种类型的缺失
    值,最多能指明.. 3种类型的缺失值。
    .... Rangeplusoneoptionaldiscrete miss,除指明最低值(Low)和最高值(High)的范围是缺
    失值以外,还可以添加一种类型的分离缺失值。
    此外,又在主菜单的Transform(数据转换)中提供了5种不同替代缺失值(Replace Miss ing 
    Values)的方法(Method)。
    选择【Transform】..【Replace MissingValues】,得到如图3-2所示的Replace MissingValues
    
    对话框。
    
    在图3-2所示对话框中可以选择以下替代缺失值(Replace Missing Values)的方法(Method)。
    
    .... Series mean,将缺失值替代为均数。
    
    .... Meanofnearbypoints,用邻近点有效数值的均数替换缺失值。
    
    .... Medianofnearbypoints,用邻近点有效数值的中位数替代缺失值。
    
    .... Linearinterpolation,用线性插值法替代缺失值(如果序列的第一个或最后一个值是缺
    
    失值,则不被替代)。
    
     
    第 
    3章缺失值与数据整理19
    
    .... Lineartrendatpoint,用点的线性趋势替换缺失值。当前序列将根据从1到n的变
    量进行回归,缺失值将被替换成预测值。
    
    图.. 3 -2Replace Missing Values(替换缺失值)对话框
    
    SPSS/ Win对缺失值可采用以下不同的处理方法。
    
    .... Excludecasespairwise,成对删除含有缺失值的个案。
    
    .... Excludecaseslistwise,删除所有含有缺失值的个案。
    
    .... Replace with mean,用平均数替代缺失值。.. 
    
    .... Excludecasestest-by-test,统计检验时,删除含有缺失值的个案。
    
    .... Excludecasesanalysisbyanalysis,统计分析时,删除含有缺失值的个案。
    
    .... Report values,报表值。
    
    值得指出的是,对同一个数据文件的缺失值设置方式,采用不同的处理方法,其输出结果
    是不相同的。
    本软件有一个模块,即缺失值分析(Missing Value Analysis)模块,它可以对数据文件中的
    缺失值做详细分析。.. 
    
    3.2数据整理 
    SPSS/ Win的主菜单.. Data能建立数据文件,进行编辑,并具有很强的数据整理功能。例
    如:定义变量(Define Variable),定义日期(Define Dates),建立模板(Templates),插入变量(InsertVariable),
    插入个案(InsertCase),指定个案(Go To Case),个案排序(SortCases),对数据
    文件转置(Transpose),合并数据文件(Merge Files),归并相同记录(Aggregate),分裂数据文件
    (SplitFile),选择个案(Select Cases),对个案加权(WeightCases)等。.. 
    
    3. 2. 1个案排序
    数据文件常因某些特殊需要而必须事先加以整理。SPSS/ Win提供了扩大应用范围的文
    件处理能力。
    
    个案排序(Sort Cases)能将数据文件中的数据(或字符)进行排序,排序方法可依据变量作
    为排序关键词进行由小到大(升幂,Ascending),或由大到小(降幂,Descending)排列;也可以依
    据字符串.. A,B,C,.,Z的字母顺序(即字典法)排序(升幂,Ascending),或按字符串.. Z,Y,X,
    .,A的字母顺序排序(降幂,Descending)。
    
    例3 
    -1已知数据库文件.. hong1. dbf,试对体重.. x 6从小到大排序。
    
    1)调入数据文件.. hong1. dbf。.. 
     
    20第 
    1篇SPSS/ 
    Win基础
    
    2)选择【Data】..【Sort Cases】,得到如图.. 3-3所示对话框。
    图.. 3-3Sort Cases(个案排序)对话框
    
    排序的变量(Sortby)为.. x 6。排序次序(SortOrder)有如下选项。
    .... Ascending,升幂,即从小到大排序,默认格式,本例选用此项。
    .... Descending,降幂,即从大到小排序。
    
    
    3)单击【OK】,得到如图3-4所示的数据文件。可见,体重.. x6从小到大排序的结果是.. 
    1. 40, 2. 55, 2. 60, 2. 60, 2. 65, 2. 70, 2. 70, 2.75, .。
    图.. 3 -4排序后的数据文件:hong1 .dbf(部分)
    
    例3 
    -2进一步,对数据hong1.dbf的x 6从小到大排序,若x 6相同时,x 5又从小到大排
    序。
    
    1)选择【Data】..【Sort Cases】,得到如图.. 3-3所示对话框。
    图.. 3-5Sort Cases(个案排序)对话框.. 
    
     
    第 
    3章缺失值与数据整理21
    
    2)在图.. 3-3中设置后(见图.. 3-5),单击【O K】,得到如图.. 3-6所示数据文件。
    图.. 3 -6排序后的数据文件.. hong1 .dbf(部分)
    
    可见, x 6从小到大排序,当.. x 6都是.. 2. 60时, x 5又从小到大排序,是.. 8 . 70,11.30,.。
    
    例3 
    -3对数据hong1.dbf的.. x 6从小到大排序,若.. x 6相同时,x 5从大到小排序。
    
    1)选择【Data】..【Sort Cases】,得到如图.. 3-3所示的对话框。
    2)在图3-3中进行设置,x 5选择【Descending】(降幂),设置后(见图3-7),单击【OK】,得
    到图.. 3-8所示数据。
    图.. 3-7Sort Cases(个案排序)对话框
    
    图.. 3 -8排序后的数据文件.. hong1 .dbf(部分) 
    
     
    可见,当x6 都是2. 60 时, x5 从大到小排序是11. 30,8. 70(见图3-8)。
    例3-4 已知数据见表3-1, 试对姓名( na m e)(字符串变量)按字典法排序。即按字符串
    A, B, C,., Z 的字母顺序排序。
    表3-1 数据表
    姓 名
    (na m e) 
    体 重
    ( x1,kg) 胸 围
    ( x2,c m ) 肺 活 量
    ( y, ml) 
    w ang 35 69 1 600 ning 40 64 2 600 peng 40 64 2 100 gu 42 74 2 650 hu 37 72 2 400 yu 45 68 2 200 lu 43 78 2 750 lou 37 66 1 800 chan 44 70 2 750 shen 42 65 2 500 zhou 41 69 2 400 deng 38 72 2 200 li 41 59 2 100 1) 建立数据文件sort. sav。
    2) 选择【Data】..【Sort Cases】,得到如图3-9 所示对话框。
    图3-9 Sort Cases(个案排序)对话框
    图3-10 排序后的数据文件sort. sav 
    3) 排序的变量(字典法排序)是na m e(见图3-9),升幂( Ascending)排列(见图3-10)。
    22 第1 篇 SP SS/ W in 基础
     
    第 
    3章缺失值与数据整理23
    
    3. 2. 2选择个案
    在SPSS/ Win中,用户可以按一定准则选择部分个案(SelectCases),然后进行统计学分析
    (Analyze)或作图(Graphs)。
    
    例3 
    -5对数据文件.. hong1.dbf,用4种准则选择满足某些条件的部分个案(Select Cases)
    并进行频数分布分析(Frequencies)(文件hong1.dbf有6个变量,其中.. x 5(g)是血红蛋白,x 6(kg)是婴儿体重,共.. 33例)。
    
    准则一
    
    对数据文件.. hong1.dbf中满足条件.. 2 .01≤x6 <3.00的婴儿体重(x 6),进行关于血红蛋
    白( x 5,g)的频数分布分析。
    
    1)调入数据文件.. hong1. dbf。
    2)选择【Data】..【Select Cases】,得到如图.. 3-11所示对话框。选择【Ifconditionissatis -
    fied】..【If】。
    图.. 3 -11Select Cases(选择个案)对话框
    
    3)选择满足条件2 .01(kg)≤.. x6<3.00(kg)的.. x 6(婴儿体重)(见图3-12)。
    图.. 3 -12Select Cases:If(如果选择个案.. )对话框
    4)单击【.. Continue】,得到如图.. 3-13所示对话框。
    5)单击【.. O K】,得到如图.. 3-14所示的数据文件。生成了一个新变量.. :filter 
    件的个案.. ,以.. “1”表示.. )。.. 
    |S. (即满足条
    
     
    24第 
    1篇SPSS/ 
    Win基础
    
    图.. 3 -13Select Cases(选择个案)对话框
    
    图.. 3 -14选择后的数据文件.. hong1 .dbf(部分)
    
    6)进一步,对满足条件2 .01(kg)≤x6 <3.00(kg)的x 6做关于x 5的频数分布分析。
    选择【Analyze】..【DescriptiveStatistics】..【Frequencies】,得到如图.. 3-15所示的对话框。
    分析的变量是filter |(见图3-15),即对x 6中满足条件2 .01≤x6<3.00的x 5进行频
    
    S与.. x 5
    数分布分析。
    
    图.. 3 -15Frequencies(频数分布分析)对话框
    
    7)单击【Statistics】,得到如图3-16所示的对话框。.. 
     
    图3-16 Frequencies:Statistics(统计量)对话框
    8) 单击【Continue】..【O K】,得到结果。 
    Frequencies,满足条件2. 01≤x6 and x6 < 3. 00 的x6 关于x5 的频数分布分析。
    统计量
    Statistics 
    x5 
    2. 01≤x6 and x6 < 3. 00 (FIL T E R ) 
    N Valid 15 15 Missing 0 0 M ean 9. 8200 1. 00 Std. D eviation . 98576 . 000 Variance . 97171 . 000 Percentiles 25 9. 0000 1. 00 50 9. 6000 1. 00 75 10. 7000 1. 00 图3-17 Select Cases(选择个案)对话框
    准则二
    在数据文件hong1. dbf 中,随机近似( A pproxim ately)抽取全部个案的30 % , 进行关于血
    红蛋白( x5 ,g)的频数分布分析。
    1) 选择【Data】..【Select Cases】,得到如图3-17 所示的对话框。
    第3 章 缺失值与数据整理25
     
    26 第 
    1篇SPSS/ 
    Win基础
    
    2)选择【Random sampleofcases】..【Sample】,得到如图3-18所示对话框。随机近似
    (Approximately)抽选全部个案的30% (见图3-18)。
    图3 -18Random Sample(随机样本)对话框
    
    3)单击【Continue】,得到如图3-19所示对话框。单击【OK】。
    图.. 3 -19Select Cases(选择个案)对话框
    
    4)进一步做频数分布分析。选择【Analyze】..【Descriptive Statistics】..【Frequencies】,得
    到如图3-20所示对话框。分析的变量(Variable(s))是filter |(见图3-20)。
    S与.. x 5
    
    图.. 3 -20Frequencies(频数分布分析)对话框
    
    5)单击【Statistics】,得到如图3-21所示对话框。.. 
     
    图3-21 Statistics(统计量)对话框
    6) 单击【Continue】..【O K】,得到结果。 
    Frequencies,频数分布分析
    统计量
    Statistics 
    FIL T E R |S x5 N V alid 8 8 M issing 0 0 M ean 1. 00 9. 9375 Std. Deviation . 000 . 99848 V ariance . 000 . 99696 Percentiles 25 1. 00 9. 2250 50 1. 00 10. 0500 75 1. 00 10. 6250 准则三
    对数据文件hong1. dbf 中,抽取第10 例到第33 例的婴儿,进行关于血红蛋白( x5,g)的
    频数分布分析。
    1) 选择【Data】.. 【Select Cases】,得到如图3-22 所示对话框。
    图3-22 Select Cases(选择个案)对话框图3-23 Select Cases:Range(范围)对话框
    2) 单击【Based on tim e or case range】..【Range】,得到如图3-23 所示对话框。
    第3 章 缺失值与数据整理27
     
    28 第 
    1篇SPSS/ 
    Win基础
    
    3)选取从第.. 10例到第.. 33例(见图3-23)。单击【Continue】,得到如图.. 3-24所示对话框。
    单击【O K】。
    图.. 3 -24Select Cases(选择个案)对话框
    
    4)选择【Analyze】..【Descriptive Statistics】..【Frequencies】,得到如图3-25所示对话框。
    分析的变量(Variable(s))是.. x 5。
    图.. 3 -25Frequencies(频数分布分析)对话框
    
    5)选择【Statistics】,得到如图3-26所示对话框。
    图.. 3-26Statistics(统计量)对话框
    
    6)单击【Continue】..【O K】,得到结果。.. 
     
    Frequencies 
    统计量
    Statistics 
    x5 
    N V alid 24 M issing 0 M ean 9. 8208 Std. Deviation . 97801 V ariance . 95650 Percentiles 25 9. 0000 50 9. 9000 75 10. 7000 准则四
    对数据文件hong1. dbf 中满足条件3. 00≤ x6 的婴儿体重( x6 )进行关于血红蛋白( x5 ,g) 
    的频数分布分析。
    1) 选择【Data】..【Select Cases】,得到如图3-27 所示对话框。
    图3-27 Select Cases(选择个案)对话框
    2) 选择【If condition is satisfied】..【If】,得到如图3-28 所示对话框。输入变量应满足的
    条件(3. 00≤ x6 )。
    图3-28 Select Cases:If(如果选择个案)对话框
    3) 单击【Continue】,得到如图3-29 所示对话框。
    第3 章 缺失值与数据整理29
     
    30 第 
    1篇SPSS/ 
    Win基础
    
    图.. 3 -29Select Cases(选择个案)对话框
    
    4)单击【OK】。在原数据文件中得到一个新变量:filter |
    S。
    
    5)选择【Data】..【Select Cases】..【Usefiltervariable】,选择滤子变量(Usefiltervari able),
    如图.. 3-30所示。单击【O K】。
    6)进一步分析。选择【Analyze】..【DescriptiveStatistics】..【Frequencies】,得到如图3-31所
    示对话框。
    图.. 3 -30Select Cases(选择个案)对话框图.. 3 -31Frequencies(频数分布分析)对话框
    
    分析的变量是3 .00≤x6(FILTER)与.. x 5(见图3-31)。
    
    7)单击【Statistics】,得到如图3-32所示对话框。
    图.. 3-32Statistics(统计量)对话框.. 
    
     
    8) 单击【Continue】.. 【O K】,得到结果。 
    Frequencies 
    统计量
    Statistics 
    3. 0≤x6 (FIL T E R) 
    X5 N V alid 17 17 M issing 0 0 M ean 1. 00 9. 5794 Std. Deviation . 000 . 86910 V ariance . 000 . 75533 Percentiles 25 1. 00 8. 8500 50 1. 00 9. 9000 75 1. 00 9. 9000 3. 2. 3 个案加权
    个案加权( W eight Cases)可以对个案进行加权。
    例3-6 某地144 名正常男子的红细胞数( 101 2/ L )如表3-2 所列,试做频数分布分析。
    (杨树勤.卫生统计学.第3 版,北京:人民卫生出版社,1993:37) 
    表3-2 144 名正常男子的红细胞数(1012/ L)数据
    红细胞数4. 2~ 4. 4~ 4. 6~ 4. 8~ 5. 0~ 5. 2~ 5. 4~ 5. 6~ 5. 8~ 6. 0~ 6. 2~ 6. 4~6. 6 组中值, x 4. 3 4. 5 4. 7 4. 9 5. 1 5. 3 5. 5 5. 7 5. 9 6. 1 6. 3 6. 5 人数, f 2 4 7 16 20 25 24 22 16 2 5 1 1) 建立如图3-30 所示的数据文件weight. sav。
    图3-33 数据文件w eight. sav 
    图3-34 W eight Cases(权重个案)对话框
    2) 对变量f 进行加权。选择【Data】.. 【W eight Cases】,得到如图3-34 所示对话框。加权
    个案( W eight Cases)可以选择如下选项(见图3-34)。
    第3 章 缺失值与数据整理31
     
    32 第 
    1篇SPSS/ 
    Win基础
    
    .... Donotweightcases,不对个案加权,默认值。
    .... Weightcasesby,对个案加权,指定频数变量(FrequencyVariable),本例是f。
    .... Current Status,当前状态(加权个案变量是.. f)。
    
    3)单击【OK】。
    4)进行频数分布分析。选择【Analyze】..【Descriptive Statistics】..【Frequencies】。频数分
    布分析(Frequencies)的变量(Variable(s))是.. x(见图3-35)。
    图.. 3 -35Frequencies(频数分布)对话框
    
    在图.. 3-35所示对话框中可进行如下设置。
    .... Statistics,统计量(见图.. 3-36)。
    
    
    图.. 3-36Statistics(统计量)对话框
    
    .... Charts,作图(见图.. 3-37)。
    .... Format,输出格式(见图3-38)。 
    
    
    图3-37Charts(作图)对话框图3-38Format(输出格式)对话框
    
     
    5) 单击【Continue】.. 【O K】,得到结果。 
    Frequencies 
    Statistics 
    红细胞数-组中值
    N Valid 144 M issing 0 M ean 5. 378 Std. D eviation . 4388 Variance . 1925 Skew ness -. 036 Std. Error of Skew ness . 202 K urtosis -. 175 Std. Error of K urtosis . 401 Percentiles 25 5. 067a 50 5. 386 75 5. 691 a. Percentiles are calculated fro m grouped data. 直方图 
    3. 2. 4 合并数据文件
    在数据整理中,有时对已建立的多个数据文件,需要进行纵向连接或横向合并,合并数据
    文件M erge Files 能对已建立的数据文件进行增加个案(纵向连接, A dd Cases )或对已建立的
    数据文件添加变量(横向合并, A dd V ariables )。将多个数据文件连接或合并起来,形成一个
    新的数据文件。
    第3 章 缺失值与数据整理33
     
    34 第 
    1篇SPSS/ 
    Win基础
    
    1.纵向连接
    例3 
    -7已建立.. 3个数据文件:cd1 .sav,cd2.sav,cd3.sav(见图.. 3-39)。试对.. cd1 .sav与.. 
    cd3.sav纵向连接(Add Cases),即将cd3 .sav的个案(记录)增加在cd1 .sav后面(假设cd1 .sav
    与.. cd3.sav的字段名、类型、宽度与小数点位数都相同)。
    
    图3 -393个数据文件cd1 .sav,cd2.sav,cd3.sav
    
    1)打开数据文件.. cd1.sav。
    2)选择【Data】..【Merge Files】..【Add Cases】,单击【d:\sp11dat】..【.. cd3.sav】..【打开】.. ,
    得到如图.. 3-40所示对话框。可进行如下设置。.. 
    .... VariablesinNewWorkingData,新工作数据文件中的变量。本例是name,age和sex。
    .... Indicate case source as variable,指出变量的个案来源,本例未选择。
    
    图.. 3 -40Add Cases(增加个案)对话框
    
    3)单击【O K】,得到如图.. 3-41所示的数据文件。
    图3 -41增加个案(Add Cases)后的数据文件.. 
    
    2.横向合并
    例3 
    -8对已建立的数据文件cd1 .sav和cd2 .sav进行横向合并(Add Variables)。假设.. 
    cd1.sav和.. cd2 .sav至少有一个字段名、类型、宽度与小数点位数相同。本例.. cd1 .sav和.. 
    cd2.sav的.. name满足这一条件。
    
    1)对.. cd2.sav的.. name排序。.. 
     
    第 
    3章缺失值与数据整理35
    
    2)对数据文件cd2 .sav关于.. name按字典升幂排序的文件另存为.. cd4.sav。单击【File】..
    【Save As】。
    3)单击【O K】。
    4)将已建立的数据文件.. cd1.sav调入内存,并对.. name按字典升幂排序。
    5)横向合并,选择【Data】..【MergeFiles】..【Add Variables】,单击【d:\sp11data】..
    【cd4. sav】..【打开】,得到如图.. 3-42所示对话框。
    图3-42 Add Variables(添加变量)对话框
    
    6)单击【OK】,得到如图3-43所示的运行结果,即横向合并后的数据文件。类似地,可以
    对多个数据文件进行纵向连接,或横向合并。
    图3 -43添加变量(Add Variables)后的数据文件.. 
    
     
    第4 章 数据转换
    SP SS for W indo w s 为用户提供了非常方便的数据(变量)转换( Transfor m )功能,它通过
    【Transfor m】..【Co m pute】命令来实现。
    4. 1 方差齐性检验实例
    例4-1 丙烯腈和乙腈毒性联合作用实验。取家兔22 只,用4 种不同浓度的药液染毒2 
    个月后,测定家兔血液中硫腈酸盐的含量( x, m g/ L),结果见表4-1。试检验4 种不同浓度的
    药液染毒2 个月后方差的齐性,并作方差分析(杨树勤.中国医学百科全书/ 医学统计学.上海: 
    上海科学技术出版社,1985:144)。
    表4-1 丙烯腈和乙腈毒性联合作用实验数据
    对照组
    (group-1) 低浓度
    (group-2) 中浓度
    (group-3) 高浓度
    (group-4) x 2. 1 7. 3 35. 0 90. 0 3. 1 4. 6 50. 0 90. 5 2. 0 3. 0 25. 0 91. 0 1. 4 10. 5 29. 0 78. 0 7. 6 60. 0 70. 5 14. 3 79. 6 7. 8 1) 建立数据文件trans1. sav(见图4-1)。
    2) 选择【A nalyze】..【Co m pare M eans】..【O ne- W ay A N O V A】,得到如图4-2 所示对话框。
    图4-1 数据文件trans1. sav 图4-2 One - Way A N O VA (单因素方差分析)对话框
    单因素方差分析( O ne- W ay A N O V A ) 的因变量名列( Dependent List) 是x。因子变量
    ( Factor)是group。
    3) 单击【Post H oc】(验后比较),得到如图4-3 所示对话框。
    验后多重比较( Post H oc M ultiple Co m parisons)的检验方法,选用L S D 方法(见图4-3),即
    最小显著性方法。
    4) 单击【Continue】..【O ptions】,得到如图4-4 所示对话框。
    选择项的统计量,选用方差齐性检验( H o m ogeneity of variance test)(见图4-4)。
     
    图4-3 Post H oc(验后比较)对话框图4-4 Options(选择项)对话框
    5) 单击【Continue】..【O K】,得到计算结果。 
    O ne way,单因素方差分析
    Test of H o mogeneity of V ariances 
    硫腈酸盐含量
    Levene Statistic df1 df2 Sig. 10. 863 3 18 . 000 方差分析表
    A N O V A 
    硫腈酸盐含量
    Su m of Squares df M ean Square F Sig. Betw een Groups 23 510. 151 3 7 836. 717 106. 063 . 000 W ithin Groups 1 329. 973 18 73. 887 Total 24 840. 124 21 Post H oc Tests(Post H oc M ultiple Co m parisons, 验后多重比较) 
    M ultiple Co m parisons 
    Dependent V ariable: 硫腈酸盐含量
    LS D 
    (I) 分组变量 
    (I) 分组变量
    M ean 
    Difference 
    (I-J) 
    Std. Error Sig. 95 % Confidence Interval Lo wer Bound U pper Bound 
    1-对照组2-低浓度 - 5. 721 5. 387 7 . 302 - 17. 041 5. 598 3-中浓度- 37. 650 * 5. 766 2 . 000 - 49. 764 - 25. 536 4-高浓度- 81. 033 * 5. 548 5 . 000 - 92. 690 - 69. 376 2-低浓度1-对照组5. 721 5. 387 7 . 302 - 5. 598 17. 041 3-中浓度- 31. 929 * 5. 033 2 . 000 - 42. 503 - 21. 354 4-高浓度- 75. 312 * 4. 782 2 . 000 - 85. 359 - 65. 265 3-中浓度1-对照组37. 650 * 5. 766 2 . 000 25. 536 49. 764 2-低浓度31. 929 * 5. 033 2 . 000 21. 354 42. 503 4-高浓度- 43. 383 * 5. 205 0 . 000 - 54. 319 - 32. 448 4-高浓度1-对照组81. 033 * 5. 548 5 . 000 69. 376 92. 690 2-低浓度75. 312 * 4. 782 2 . 000 65. 265 85. 359 3-中浓度43. 383 * 5. 205 0 . 000 32. 448 54. 319 *. T he difference is significant at the. 05 level. 
    第4 章 数据转换37
     
    结果分析
    列文( Levene)方差齐性检验( T est for H o m ogeneity of V ariances),得到: P( Sig. = 0. 000) 
    < 0. 01,故可认为4 种不同浓度染毒2 个月后的含量方差不齐。
    再将家兔血液中硫腈酸盐含量( x)转换成l x = lg x + 1,希望转换后的数据达到4 组的方
    差相同。
    6) 单击【Transfor m】..【Co m pute】,得到如图4-5 所示对话框。
    图4-5 Co m pute Variable(赋予变量值)对话框
    目标变量( T arget)是l x,数值表达式( N u m eric E xpression)是L G10( x) + 1,单击【O K】,然
    后再进行单因素方差分析,分析的变量是lx,其余选择同上,得到如下结果。 
    O ne way,转换后的单因素方差分析
    方差齐性检验
    Test of H o mogeneity of V ariances 
    L X
    Levene Statistic df1 df2 Sig. 1. 867 3 18 . 171 方差分析表
    A N O V A 
    L X 
    Su m of Squares df M ean Square F Sig. Betw een Groups 7. 787 3 2. 596 99. 027 . 000 W ithin Groups . 472 18 . 026 Total 8. 258 21 38 第1 篇 SP SS/ W in 基础
     
    Post H oc T ests( Post H oc M ultiple Co m parisons, 验后多重比较) 
    M ultiple Co m parisons 
    D ependent Variable: L X 
    L S D 
    (I) 分组变量 
    (I) 分组变量
    M ean 
    Defference 
    (I-J) 
    Std. Error Sig. 95 % Confidence Interval Lo wer Bound U pper Bound 
    1-对照组2-低浓度 -. 5352 * . 10147 . 000 -. 7484 -. 3220 3-中浓度- 1. 2611 * . 10860 . 000 - 1. 4893 - 1. 0330 4-高浓度- 1. 6028 * . 10450 . 000 - 1. 8224 - 1. 3833 2-低浓度1-对照组. 5352 * . 10147 . 000 . 3220 . 7484 3-中浓度-. 7259 * . 09480 . 000 -. 9251 -. 5268 4-高浓度- 1. 0676 * . 09007 . 000 - 1. 2569 -. 8784 3-中浓度1-对照组1. 2611 * . 10860 . 000 1. 0330 1. 4893 2-低浓度. 7259 * . 09480 . 000 . 5268 . 9251 4-高浓度-. 3417 * . 09803 . 003 -. 5477 -. 1357 4-高浓度1-对照组1. 6028 * . 10450 . 000 1. 3833 1. 8224 2-低浓度1. 0676 * . 09007 . 000 . 8784 1. 2569 3-中浓度. 3417 * . 09803 . 003 . 1357 . 5477 *. The m ean difference is significant at the. 05 level 
    结果分析 转换后的方差齐性检验,得到P(Sig. = 0. 171) > 0. 10,故可认为方差是齐的。
    可见,两者的计算结果是不同的,前者结果不可取,后者结果是正确的。
    4. 2 百分位数的logit 变换
    例4-2 用家兔研究甲胎蛋白诊断肝癌, x 为抗体血清稀释度的倒数, p 为结合率,原始数
    据见图4-6。欲求x 推算p 的回归方程,并用适当变换使观察点呈直线趋势。(杨树勤.中国
    医学百科全书/ 医学统计学.上海:上海科学技术出版社,1985:43) 
    图4-6 数据文件:trans2. sav 
    1) 录入原始数据(trans2. sav),并作如下3 种变量转换。
    ① 单击【Transfor m】..【Co m pute】,得到如图4-7 所示对话框。
    显示lg x = lg x。目标变量(Target V ariable)是lg x。数值表达式是L G10( x)。单击【O K】。
    第4 章 数据转换39
     
    40 第 
    1篇SPSS/ 
    Win基础
    
    ②单击【Transform】..【Compute】,得到如图4-8所示对话框。
    显示:lgx 1=lg(x+800)。目标变量(Target Variable)是lgx 1,数值表达式是LG10(x+
    800)。单击【O K】。
    
    图4 -7Compute Variable(赋予变量值)对话框
    
    图4 -8Compute Variable(赋予变量值)对话框
    
    ③单击【Transform】..【Compute】,得到如图4-9所示对话框。显示: 
    p/ 100 
    y= 5 + (1/ 2)ln 
    
    1 -p/ 100
    
    图4 -9Compute Variable(赋予变量值)对话框.. 
    
     
    第4章数据转换41
    
    目标变量(TargetVariable)是y。数值表达式是5+0 .5 *(LN((p/100)/(1 -p/100))),
    单击【O K】,得到如图.. 4-10所示的数据文件。
    
    图4 -10Compute Variable(赋予变量值)后的数据文件
    
    其中,x为抗体血清稀释度的倒数,p(%)为结合率,lgx为lg(x),lgx 1为lg(x+800),y为.. 
    p/ 100 
    
    5+ 
    12ln 
    1-p/100
    。
    
    2)再做lgx与.. p的线图(Line),单击【Graphs】..【Line】..【Simple】,得到如图.. 4-11所示
    的对话框。
    3)选择【Define】,得到如图.. 4-12所示对话框。
    图.. 4 -11Line Charts(线图)对话框图.. 4 -12 Define Simple Line(定义简单线图)对话框
    
    在图4-12所示对话框的Line Represents中选择【OtherSummaryfunction】(其他摘要功
    能)。本例分类轴(Category Axis)是lgx,变量(Variable)是.. p。
    
    4)单击【OK】,得到如图4-13所示的图形。
    5)再做lgx 1与.. y的直线(linear)回归分析。单击【Analyze】..【Regression】..【CurveEsti mation
    】,得到如图.. 4-14所示的对话框。.. 
     
    42第 
    1篇SPSS/ 
    Win基础
    
    GRAPHS
    
    
    图.. 4-13简单线图图.. 4 -14Curve Estimation(曲线估计)对话框
    
    6)单击【O K】,得到结果。.. 
    Curve Fit 
    M O D EL: M O D 1. 
    Dependent variable.. Y 
    Listwise Deletion of Missing Data 
    Method.. LIN EA R 
    M ultiple R 
    R Square 
    Adjusted R Square 
    Standard Error 
    . 985 14 
    . 970 49 
    . 967 22 
    . 128 66 
    Regression 
    Residuals 
    Analysis of Variance: 
    DF Sum of Squares 
    1 4. 900 363 3 
    9 . 148 987 2 
    Mean Square 
    4. 900 363 3 
    . 016 554 1 
    F = 296. 020 48 Signif F = . 000 0 
    ---------------Variablesin the Equation ----------------
    Variable 
    L G X1 
    (Constant) 
    B 
    -1. 002 775 
    7. 896 773 
    SE B 
    . 058 283 
    . 218 742 
    Beta 
    -. 985 136 
    T 
    -17. 205 
    36. 101 
    Sig T 
    . 000 0 
    . 000 0 
    
    图.. 4-15曲线拟合
    
     
    第4章数据转换43
    
    从以上结果得出: 
    y=7.896773 -1.002775(lgx1), (p<0.01)
    回归直线(Linear)与原始数据(Observed)的散点图如图.. 4-15所示。 
    
    
    4. 3资料的分组
    例4 
    -3已知产妇及婴幼儿体检数据,并建立了一个dBASE数据文件hong1.dbf。试对.. 
    x6(婴儿体重,kg)按如下方式分组: x 6<2.00kg时,g =1;2.00kg≤x≤3.00kg时,g =2; 
    x6 >3.00 kg时, g =3。
    
    1)将.. hong1. dbf调入。
    2)选择【Transform】..【Compute】。
    婴儿体重(x 6)小于2kg的分为第一组(g =1)。目标变量(TargetVariable)是.. g。数值表
    达式是.. 1(见图.. 4-16)。
    
    图4 -16 Compute Variable(赋予变量值)对话框
    
    3)单击【If】,得到如图.. 4-17所示对话框。
    图4 -17 Compute Variable(赋予变量值)对话框
    
    4)单击【Continue】,得到如图4-18所示的对话框。单击【OK】。
    5)婴儿体重(x 6)大于或等于2kg,但小于或等于3kg的分为第二组(g =2)。再选择
    【Transform】..【Compute】,目标变量(TargetVariable)是.. g。数值表达式是2(见图4-19)。.. 
     
    44第 
    1篇SPSS/ 
    Win基础
    
    6)单击【If】,得到如图.. 4-20所示的对话框。
    图4-18Compute Variable(赋予变量值)对话框一
    
    图4-19Compute Variable(赋予变量值)对话框二
    
    图4 -20Compute Variable(赋予变量值)对话框三
    
    7)单击【O K】,得到如图.. 4-21所示的对话框。
    8)单击【Continue】,得到如图.. 4-22所示的对话框。单击【确定】。
    9)婴儿体重,大于3 kg的分为第三组(g =3)(见图4-23)。再选择【Transform】..【Compute
    】。
    10)单击【If】,得到如图4-24所示对话框。
    11)单击【Continue】,得到如图.. 4-25所示对话框。
    12)单击【O K】,得到如图.. 4-26所示对话框。.. 
    
     
    第4章数据转换45
    
    图4 -21IfCases(选用个案)对话框图4 -22SPSSfor Windows对话框
    
    图4-23Compute Variable(赋予变量值)对话框一
    
    图4 -24Compute Variable(赋予变量值)对话框二
    
    图4 -25Compute Variable(赋予变量值)对话框三.. 
    
     
    46第 
    1篇SPSS/ 
    Win基础
    
    图4-26 SPSSfor Windows对话框
    13)单击【确定】,得到如图.. 4-27所示的数据文件。
    
    图.. 4 -27分组后的数据文件.. hong1 .dbf(部分)
    至此,完成了对.. x 6(婴儿体重,kg)的分组工作(见图4-27)。分组变量是.. g。.. 
    
     
    第 
    5章SPSS中的函数 
    
    
    SPSS11.0for Windows自带13种类型179个常用函数(Functions),能充分满足广大用
    户的实际需要。.. 
    
    5. 1计算(赋值)
    目标变量(target variable) =表达式(expression)
    其中,表达式(expression)是算术运算与数值函数。
    
    算术运算有: + (加法), -(减法),*(乘法),/ (除法), ** (乘方(幂))。.. 
    
    5. 2索引函数的操作
    在主画面(见图.. 1-7)中,单击【Help】..【Topics】..【索引】(键入要查找单词的前几个字母,
    键入:Function)..【显示】(显示找到的主题)..【索引】(选择相应的函数类型)..【显示】(显示
    相应函数类型的函数即功能)。.. 
    
    5. 3常用函数参数
    (1) numexpr,数值表达式(numericexpression)。
    (2) radians,弧度。
    (3) strexpr,字符串表达式(string expression)。
    (4)format,输出格式。
    (5) quant,定量值(quantity)。
    (6) prob,概率值(probability)。
    (7) shape,形状。
    (8) loc,位置(location)。
    (9) scale,比例。
    (10) threshold,临界值,限。
    (11) nc,非中心值(noncentrality)。
    (12) df,自由度(degreesoffreedom)。
    (13) mean,均数。
    (14) stddev,标准差(standard deviation)。
    (15) n,整数。
    (16) timevalue,时间值。
    (17) day,天。
    (18) month,月。
     
    48第 
    1篇SPSS/ 
    Win基础
    
    (19) year,年。
    (20) quarter,季度。
    (21) weeknum,周数(1~52之间的整数)。
    (22) daynum,天数(1~366之间的整数)。
    (23) hours,小时。
    (24) min,分(minute)。
    (25) sec,秒(second)。
    (26) datevalue,日期值。
    (27) variable,变量。
    (28) numvar,变量数。
    (29)sample,样本。
    (30) ncases,个案数。.. 
    5. 4常用函数类型 
    5. 4. 1算术函数
    算术函数(Arithmetic Functions)有以下13种。
    
    ABS(numexpr),绝对值函数,结果是数值。
    
    ARSIN(numexpr),反正弦函数,结果是数值,其值在.. -1与.. +1之间。
    
    ARTAN(numexpr),反正切函数,结果是数值。
    
    COS(radians),余弦函数,结果是数值(以弧度为单位)。
    
    EXP(numexpr),指数函数,以e(e =2.7182.)为底的幂,即取数值表达式的指数函数,结
    果是数值。
    LN(numexpr),自然对数,即取以e(e =2.7182.)为底的对数函数,结果是数值(数值表
    达式.. > 0)。
    
    LNGAM MA(numexpr),对数Γ函数,结果是数值。
    
    LG10(numexpr),常用对数,即取以10为底的对数函数,结果是数值。
    
    MOD(numexpr,modulus),取模函数,即取数值表达式的模数,结果是数值。其中,modulus
    是不为零的模数。
    
    RND(numexpr),取最接近数值表达式的值(四舍五入的整数),结果是数值。
    
    SIN(radians),正弦函数,结果是数值(以弧度为单位)。
    
    SQRT(numexpr),平方根,取数值表达式的平方根,结果是数值(数值表达式≥0)。
    
    TRUNC(numexpr),取整数(Truncation),即舍去数值表达式的小数,结果是数值。.. 
    
    5. 4. 2转换函数
    转换函数(Conversion Functions)有以下2种。
    
    NUMBER(strexpr,format),将字符转换为数值。
    
    STRING(numexpr,format),将数值转换为字符。
    
    如,STRING( -1.5,F5.2) = -1.50(格式是5个整数位,2个小数位)。.. 
    
     
    第 
    5章SPSS中的函数49
    
    5. 4. 3累计分布函数
    累计分布函数(CDF, CumulativeDistributionFunctions)有以下30种。.. 
    
    CDF.BERNOULLI(quant, prob),伯努利分布累计概率,结果是数值。.. 
    
    CDF. BETA(quant, shape1, shape2),β分布累计概率,结果是数值。.. 
    
    CDF.BINOM(quant, n,prob),试验次数为n,成功概率为prob的二项式分布累计概率,
    结果是数值。.. 
    CDF.BVNOR(quant1,quant2,corr),标准二元正态分布累计概率,结果是数值。其中, 
    corr是相关系数,它小于.. quant1与.. quant2。.. 
    
    CDF.CAUCHY(quant,loc,scale),柯西分布累计概率,结果是数值。.. 
    
    CDF.CHISQ(quant, df),χ2
    分布累计概率,结果是数值。.. 
    
    CDF.EXP(quant,shape),指数分布累计概率,结果是数值。.. 
    
    CDF.F(quant,df1,df2), F分布累计概率,结果是数值。.. 
    
    CDF.GAM MA(quant,shape,scale),Γ分布累计概率,结果是数值。.. 
    
    CDF.GEOM(quant, prob),指定概率为prob的几何分布累计概率,结果是数值。.. 
    
    CDF. HALFNRM(quant,mean,stddev),半正态分布累计概率,结果是数值。其中,mean
    与.. stddev都小于.. quant。.. 
    CDF. HYPER(quant,total,sample, hits),获得成功所需试验次数的累计概率,结果是数
    值。其中,total是总计,hits是击中值。.. 
    
    CDF.IGASS(quant,loc,scale),逆高斯分布累计概率,结果是数值。.. 
    
    CDF.LAPLACE(quant,mean,scale),拉普拉斯分布累计概率,结果是数值。.. 
    
    CDF.LOGISTIC(quant, mean,scale),逻辑斯谛分布累计概率,结果是数值。.. 
    
    CDF.LNORMAL(quant, a, b),对数正态分布累计概率,结果是数值。.. 
    
    CDF. NEGBIN(quant,thresh, prob),获得成功所需试验次数的累计概率,结果是数值。
    
    CDFN OR M(zvalue),标准化随机变量累计概率,结果是数值。其中, zvalue是标准化值。.. 
    
    CDF.NORMAL(quant, mean,stddev),正态分布累计概率,结果是数值。.. 
    
    CDF.PARETO(quant,threshold,shape),帕累托分布累计概率,结果是数值。.. 
    
    CDF.POISSON(quant, mean),泊松分布累计概率,结果是数值。.. 
    
    CDF.SM OD(quant,a,b),学生氏全距统计累计概率,结果是数值。.. 
    
    CDF.SRANGER(quant,a,b),学生氏最大模数累计概率,结果是数值。.. 
    
    CDF. T(quant, df),学生氏t分布累计概率,结果是数值。.. 
    
    CDF. UNIFORM(quant, min, max),均匀分布累计概率,结果是数值。其中,min是最小
    值,max是最大值。.. 
    CDF. WEIBULL(quant,a,b),威布尔分布累计概率,结果是数值。.. 
    NCDF.BETA(quant,shape1,shape2,nc),非中心β分布累计概率,结果是数值。.. 
    
    NCDF. CHISQ(quant, df, nc),非中心.. χ2
    分布累计概率,结果是数值。.. 
    
    NCDF.F(quant,df1,df2, nc), F非中心分布累计概率,结果是数值。.. 
    
    NCDF. T(quant, df, nc),学生氏t非中心分布累计概率,结果是数值。.. 
    
     
    50第 
    1篇SPSS/ 
    Win基础
    
    5. 4. 4日期和时间函数
    日期和时间函数(Dateand TimeFunctions)有以下26种。
    CTIME. DAYS(timevalue),取数值,结果是天数。
    CTIME. HOURS(timevalue),取数值,结果是小时数。
    CTIME. MINUTES(timevalue),取数值,结果是分钟数。
    CTIM E. SECO N DS(timevalue),取数值,结果是秒钟数。.. 
    DATE. DMY(day,month,year),结果是SPSS日期格式的数值。.. 
    DATE. MDY(month,day,year),结果是SPSS日期格式的数值。.. 
    DATE. MOYR(month,year),结果是SPSS日期格式的数值。.. 
    DATE. QYR(quarter,year),结果是SPSS日期格式的数值。.. 
    DATE. WKYR(weeknum,year),结果是SPSS日期格式的数值。其中,year≥1582。.. 
    DATE. YRDAY(year,daynum),结果是SPSS日期格式的数值。.. 
    TIME. DAYS(days),结果是.. SPSS时间区间格式的数值。.. 
    TIME. HMS(hours,min,sec),结果是SPSS时间区间格式的数值。
    XDATE. DATE(datevalue),结果是.. SPSS日期格式的数值。
    XDATE. HOUR(datevalue),结果是小时(0~23之间的整数)。.. 
    XDA TE.JDA Y(datevalue),结果是这一年的天数(1~366之间的整数)。
    XDATE. MDAY(datevalue),结果是这一月的天数(1~31之间的整数)。
    XDATE. MINUTE(datevalue),结果是分钟数(1~59之间的整数)。
    XDATE. MONTH(datevalue),结果是月数(1~12之间的整数)。
    XDATE. QUARTER(datevalue),结果是这一年的季度(1~4之间的整数)。
    XDA TE. SECO N D(datevalue),结果是秒数。其中,datevalue是日期值,0≤second≤59。
    XDATE. TDAY(timevalue),结果是数值。
    XDATE. TIME(datevalue),结果是.. SPSS时间区间格式的数值。
    XDATE. WEEK(datevalue),结果是一年中的周数值。其中,1≤week≤53。
    XDATE. WKDAY(datevalue),结果是星期数值。
    XDATE. YEAR(datevalue),结果是数值。
    N R M ODA(year,month,day),结果是数值。.. 
    
    5. 4. 5逆分布函数
    逆分布函数(IDF, Inverse Distribution Functions)有以下19种。.. 
    
    IDF. BETA(prob,shape1,shape2),逆β分布函数,结果是数值。.. 
    
    IDF. CAUCHY(prob,loc,scale),逆柯西分布函数,结果是数值。.. 
    
    IDF. CHISQ(prob, df),逆.. χ2
    分布函数,结果是数值。.. 
    
    IDF. EXP(prob,shape),逆指数分布函数,结果是数值。.. 
    
    IDF. F(prob,df1,df2),逆.. F分布函数,结果是数值。.. 
    
    IDF. GAM MA(prob, shape,scale),逆Γ分布函数,结果是数值。.. 
    
    IDF. HALFNRM(prob,mean,stddev),半正态分布函数,结果是数值。.. 
    
    IDF.IG U ASS(prob,loc,scale),逆高斯分布函数,结果是数值。.. 
    
     
    第 
    5章SPSS中的函数51
    
    IDF. LAPLACE(prob, mean, scale),逆拉普拉斯分布函数,结果是数值。.. 
    
    IDF.LOGISTIC(prob, mean,scale),逆逻辑斯谛分布函数,结果是数值。.. 
    
    IDF. LNORMAL(prob,a,b),逆对数正态分布函数,结果是数值。.. 
    
    IDF. NORMAL(prob, mean,stddev),逆正态分布函数,结果是数值。.. 
    
    IDF. PARETO(prob,threshold,shape),逆帕累托分布函数,结果是数值。.. 
    
    IDF.SMOD(prob,a,b),逆学生氏全距统计分布函数,结果是数值。.. 
    
    IDF.SRANGE(prob,a,b),逆学生氏最大模数分布函数,结果是数值。.. 
    
    IDF.T(prob, df),逆t分布函数,结果是数值。.. 
    
    IDF.UNIFORM(prob, min,max),逆均匀分布函数,结果是数值。其中,min是最小值, 
    max是最大值。.. 
    IDF. WEIBULL(p,a,b),逆威布尔分布函数,结果是数值。
    PROBIT(prob),结果是数值。.. 
    
    5. 4. 6逻辑函数
    逻辑函数(Logical Functions)有以下.. 2种。.. 
    RA N GE(test,lo,hi,[,lo,hi,... ]),结果是逻辑值,范围内的值是真实的。其中,test是检
    验, lo是低(low),hi是高(high)。
    ANY(test,value[,value,...]),结果是逻辑值,相配的值是真实的。其中,test是检验, 
    value是值。.. 
    
    5. 4. 7缺失值函数
    缺失值函数( Missing-Value Functions)有以下.. 4种。.. 
    
    N MISS(variable[,...]),缺失值例数,结果是数值。
    
    MISSING(variable),真实缺失值,结果是逻辑值。
    
    SYSMIS(numvar),真实系统缺失值,结果是逻辑值。
    
    VALUE(variable),忽略用户缺失值,结果是数值或逻辑值。.. 
    
    5. 4. 8函数中的缺失值
    函数中的缺失值(Missing Valuesin Functions)有以下2种。
    MEAN(var1,var2,var3)。其中,var1是变量1(variable1), var2是变量2(variable2), var3
    是变量.. 3(variable3)。.. 
    MEAN.2(var1,var2,var3)。其中,var1是变量1(variable1), var2是变量2(variable2),
    var3是变量.. 3(variable3)。.. 
    
    5. 4. 9概率密度函数
    概率密度函数(PDF, Probability DensityFunctions)有以下27种。.. 
    
    PDF. BERNOULLI(quant,prob),伯努利分布概率密度函数,结果是数值。.. 
    
    PDF. BETA(quant,shape1,shape2),β分布概率密度函数,结果是数值。.. 
    
    PDF.BINOM(quant,n,prob),试验次数为.. n,成功概率为prob的二项式分布概率密度函
    数,结果是数值。.. 
    
     
    52第 
    1篇SPSS/ 
    Win基础
    
    PDF. BVNOR(quant1,quant2,corr),标准化二元正态分布概率密度函数,结果是数值。.. 
    
    PDF. CAUCHY(quant,loc,scale),柯西分布概率密度函数,结果是数值。.. 
    
    PDF. CHISQ(quant,df),χ2
    分布概率密度函数,结果是数值。.. 
    
    PDF. EXP(quant,shape),指数分布概率密度函数,结果是数值。.. 
    
    PDF.F(quant,df1,df2), F分布概率密度函数,结果是数值。.. 
    
    PDF. GAM MA(quant,shape,scale),Г分布概率密度函数,结果是数值。.. 
    
    PDF. GEOM(quant,prob),指定概率为prob的几何分布概率密度函数,结果是数值。.. 
    
    PDF. HALNRM(quant,mean,stddev),半正态分布概率密度函数,结果是数值。.. 
    
    PDF. HYPER(quant,total,sample,hits),概率密度函数,结果是数值。.. 
    
    PDF.IGAUSS(quant,loc,scale),逆高斯分布概率密度函数,结果是数值。.. 
    
    PDF. LAPLACE(quant,mean,scale),拉普拉斯分布概率密度函数,结果是数值。.. 
    
    PDF. LOGISTIC(quant,mean,scale),逻辑斯谛分布概率密度函数,结果是数值。.. 
    
    PDF. LNORMAL(quant,a,b),对数正态分布概率密度函数,结果是数值。.. 
    
    PDF. NEGBIN(quant,thresh,prob),获得成功所需试验次数的概率密度函数,结果是数值。.. 
    
    PDF. NORMAL(quant,mean,stddev),正态分布概率密度函数,结果是数值。.. 
    
    PDF. PARETO(quant,threshold,shape),帕累托分布概率密度函数,结果是数值。.. 
    
    PDF. POISSON(quant,mean),泊松分布概率密度函数,结果是数值。.. 
    
    PDF. T(quant,df),学生氏t分布概率密度函数,结果是数值。.. 
    
    PDF. UNIFORM(quant,min,max),均匀分布概率密度函数,结果是数值。.. 
    
    PDF. WEIBULL(quant,a,b),威布尔分布概率密度函数,结果是数值。.. 
    
    NPDF. BETA(quant,shape1,shape2,nc),非中心β分布概率密度函数,结果是数值。.. 
    
    NPDF. CHISQ(quant,df,nc),非中心.. χ2
    分布概率密度函数,结果是数值。.. 
    
    NPDF. F(quant,df1,df2,nc),非中心.. F分布概率密度函数,结果是数值。.. 
    
    NPDF. T(quant,df,nc),非中心学生氏t分布概率密度函数,结果是数值。.. 
    
    5. 4. 10随机变量函数
    随机变量函数(RV, Random VariableFunctions)有以下24种。
    NORMAL(stddev),正态分布随机变量函数,结果是数值。
    RV.BERNOULLI(prob),伯努利分布随机变量函数,结果是数值。
    RV. BET A(shape1, shape2),β分布随机变量函数,结果是数值。
    RV.BINOM(n, prob),二项式(Binomial)分布随机变量函数,结果是数值。
    RV.CAUCHY(loc, scale),柯西分布随机变量函数,结果是数值。.. 
    
    RV.CHISQ(df),χ2
    分布随机变量函数,结果是数值。
    RV.EXP(shape),指数分布随机变量函数,结果是数值。
    RV. F(df1, df2), F分布随机变量函数,结果是数值。.. 
    RV.GAM MA(shape,scale),Γ分布随机变量函数,结果是数值。
    RV. GEOM(prob),几何(Geometric)分布随机变量函数,结果是数值。
    RV. HALFNRM(mean,stddev),半正态分布随机变量函数,结果是数值。
    RV.HYPER(total,sample, hits),超几何(Hypergeometric)分布随机变量函数,结果是数.. 
    
     
    第 
    5章SPSS中的函数53
    
    值。其中,total是总计,sample是样本,hits是击中。.. 
    RV.IGUASS(loc,scale),逆高斯分布随机变量函数,结果是数值。
    RV.LAPLACE(mean,scale),拉普拉斯分布随机变量函数,结果是数值。
    RV.LOGISTIC(mean, scale),逻辑斯谛分布随机变量函数,结果是数值。
    RV.LNORMAL(a, b),对数正态分布随机变量函数,结果是数值。
    RV. NEGBIN(threshold, prob),负二项式(NegativeBinomial)分布随机变量函数,结果是
    
    数值。
    RV. NORMAL(mean,stddev),正态分布随机变量函数,结果是数值。
    RV.PARETO(threshold,shape),帕累托分布随机变量函数,结果是数值。
    RV.POISSON(mean),泊松随机变量函数,结果是数值。
    RV. T(df), t分布随机变量函数,结果是数值。
    RV. UNIFORM(min, max),均匀分布随机变量函数,结果是数值。
    RV. WEIBULL(a,b),威布尔分布随机变量函数,结果是数值。
    UNIFORM(max),一致性分布随机变量函数,结果是数值。其中,max是最大值。.. 
    
    5. 4. 11统计函数
    统计函数(Statistical Functions)有下列.. 10种。
    CFV AR(numexpr,numexpr[,.]),变异系数,结果是数值。
    LA G(variable),滞后,结果是数值或字符串。
    LA G(variable,ncases),滞后,结果是数值或字符串。
    M A X(value,value[,.]),最大值,结果是数值或字符串。
    M EA N(numexpr,numexpr[,.]),平均值,结果是数值。
    MIN(value,value[,.]),最小值,结果是数值或字符串。
    NVALID(variable[,.]),有效例数(不含缺失值例数),结果是数值。
    SD(numexpr,numexpr[,.]),标准差,结果是数值。
    SU M(numexpr,numexpr[,.]),总和,结果是数值。
    V ARIAN CE(numexpr,numexpr[,.]),方差,结果是数值。 
    
    
    5. 4. 12字符串函数
    字符串函数(String Functions)有下列18种。
    CO N CA T(strexpr,strexpr[,.]),并列(毗连,Concatenate),结果是字符串。
    INDEX(haystack,needle),左侧的指示,结果是数值。其中,haystack是干草堆。needle是
    
    针。
    INDEX(haystack,needle,divisor),左侧的指示,结果是数值。其中,haystack是干草堆。
    
    needle是针, divisor是除数。
    LO WER(strexpr),变换为下一个个案,结果是字符串。
    LPAD(strexpr,length),装填左侧,结果是字符串。
    LPAD(strexpr,length,char),装填左侧,结果是数值或字符串。
    LT RIM(strexpr),修整左侧,结果是字符串。
    LT RIM(strexpr,char),修整左侧,结果是字符串或数值。.. 
    
     
    54第 
    1篇SPSS/ 
    Win基础
    
    LEN G TH(strexpr),定义长度,结果是数值。
    RINDEX(haystack,needle),右侧的指示,结果是数值。其中,haystack是干草堆。needle
    是针。
    RINDEX(haystack,needle,divisor),右侧的指示,结果是数值。其中,haystack是干草堆。
    
    needle是针,divisor是除数。
    RPAD(strexpr,length),装填右侧,结果是字符串。
    RPAD(strexpr,length,char),装填右侧,结果是字符串。
    RTRIM(strexpr),修整右侧,结果是字符串。
    RTRIM(strexpr,char),修整右侧,结果是字符串。
    SUBSTR(strexpr,pos),子字符串,结果是字符串。
    SUBSTR(strexpr,pos,length),子字符串,结果是字符串。
    U PCAS(strexpr),变换为上一个个案,结果是字符串。.. 
    
    5. 4. 13单侧尾部概率函数
    单侧尾部概率函数(SIG, Single TailProbability Functions)有以下2种。 
    SIG. CHISQ(quant,DF),累计.. χ2
    分布单侧尾部累计概率,结果是数值。 
    SIG. F(quant,df1,df2),累计.. F分布单侧尾部累计概率,结果是数值。 
    
    
    5. 5二项式分布的应用
    例5 
    -1据以往经验,新生儿染色体异常率一般为.. 1%,某医院观察了当地400名新生
    儿,有1例染色体异常,问该地新生儿染色体异常率是否低于一般情况。(杨树勤.卫生统计
    学.第.. 2版,北京:人民卫生出版社,1989:73)
    
    本例是样本率与总体率的比较,采用直接概率法。已知: 
    pai=0.01,1 -pai=1-0.01 =0.99, n =400
    求.. P(x≤1)=P(0)+P(1)的值。
    
    1)建立数据文件(见图.. 5-1)fun1 .sav。
    2)选择【Transform】..【Compute】,得到如图5-2所示对话框。
    图5 -1数据文件fun1 .sav图5-2Compute Variable(赋值变量)对话框
    
    本例的目标变量(Target)是px(见图5-2)。数值表达式(Numeric Expression)是.. 
    CDF.BINOM(x,400,0.01) -CDF. BINOM(x -1,400,0.01) 
    
     
    第 
    5章SPSS中的函数55
    
    3)单击【OK】,得到如图5-3所示数据。
    4)选择【Transform】..【Compute】,得到如图5-4所示对话框。
    图5 -3数据文件fun2 .sav图5-4 ComputeVariable(赋予变量值)对话框
    
    目标变量(Target)是.. p,数值表达式(NumericExpression)是SUM(0 .017951,0.072527)。
    
    5)单击【OK】,得到图5-5所示数据文件。
    图.. 5-5数据文件.. fun3 . sav
    
    分析 
    p=0.090478。按α= 0.05水准,尚不能认为该地新生儿染色体异常率低于一般
    情况。.. 
    
    5. 6日期和时间函数的应用
    例5 
    -2已有如图5-6所示的数据文件.. ndata .sav(数据的录入参考第2章的2 .2节)。其
    中,儿童出生时间是.. birth(月月/日日/年年年年),儿童免疫时间是time(月月/日日/年年年
    年)。试计算儿童免疫时的实际年龄(age)。
    
    图.. 5 -6数据文件.. ndata . sav
    
    1)选择【Transform】..【Compute】。
    目标变量(Target)是year。数值表达式(NumericExpression)是XDATE . YEAR(time) 
     
    56第 
    1篇SPSS/ 
    Win基础
    
    XDATE. YEAR(birth)。
    
    2)单击【OK】,得到数据文件ndata,其增加了一个新变量.. year。
    3)再选择【Transform】..【Compute】。
    目标变量(Target)依次为month,day。数值表达式(Numeric Expression)依次为: 
    XDATE. MONTH(time)-XDATE. MONTH(birth)和XDATE . MDAY(time)-XDATE. MDAY 
    (birth)
    
    4)依次单击【OK】,得到数据文件ndata,可以看到,又增加了两个新变量.. month, day。
    5)最后,再选择一次【Transform】..【Compute】,得到如图5-7所示对话框。
    图5 -7Compute Variable(赋予变量值)对话框
    
    这时,目标变量(Target)是age。数值表达式(Numeric Expression)是year+ month/12+
    day/ 365(见图.. 5-7)。
    
    6)单击【OK】,得到儿童免疫时的实际年龄(age)为10 .09, 13.82, 5.36,6.61,5.98, 
    8. 11, 6. 73, 5. 08, 5. 82, 6. 93。.. 
     
    第6 章 S P S S 的汉化编辑
    SP SS/ W in 的原版是英文的,输出结果与说明文字也都是英文的。但是它可以配合中文
    使用,例如,利用W ord 97/ 2000, W PS 97 或W P S 2000 等编辑软件,对其变量的标识可以用中
    文直接描述,其输出结果也可以完全用中文编辑表达,从而增加可读性。
    实现的方法:首先,在数据录入时建立的变量( V ariable)标识( Label)需要用中文描述,然
    后,对输出结果进行汉化编辑。
    6. 1 实 例
    例6-1 已知10 名20 岁男青年身高与前臂长的数据如表6-1 所列。试对其进行相关分
    析( Correlations),并对其输出结果进行汉化编辑与注释。
    表6-1 10 名男青年身高与前臂长的数据
    身高/ c m 170 173 160 155 173 188 178 183 180 165 前臂长/ c m 45 42 44 41 47 50 47 46 49 43 1) 建立数据文件z w 1. sav, 格式如图6-1 所示。注意,数据文件z w1. sav 的变量名( V ariable)
    是用中文表达的。
    2) 单击【A nalyze】→【Correlate】→【Bivariate】,得到如图6-2 所示对话框。在图6-2 中,相
    关分析的变量是“身高”与“前臂长”。
    图6-1 数据文件zw1. sav 图6-2 Bivariate Correlations(二值相关分析)对话框
    3) 单击【O ptions】,得到如图6-3 所示对话框。
     
    图6-3 Bivariate Correlations: Options(二值相关分析选择项)对话框 
    4) 单击【Continue】→【O K】, 得到如下英文输出结果(一)。 
    Correlations, 相关分析
    Descriptive Statistics 
    M ean Std. Deviation N 身高 172. 50 10. 341 10 前臂长45. 40 2. 951 10 Correlations 
    身 高前 臂 长
    身高Pearson Correlation 1 . 823 ** Sig. (2-tailed) . . 003 Su m of Squares and Cross-products 962. 500 226. 000 Covariance 106. 944 25. 111 N 10 10 前臂长Pearson Correlation . 823 ** 1 Sig. (2-tailed) . 003 . Su m of Squares and Cross-products 226. 000 78. 400 Covariance 25. 111 8. 711 N 10 10 **. Correlation is significant at the 0. 01 level (2-tailed) 
    6. 2 中文编辑
    接例6-1,继续进行汉化编辑, 步骤如下。
    1) 在英文输出结果的“ Correlations”附近处双击左键,显示效果如下。
    Descriptive Statistics 
    M ean 
    Std. 
    Deviation 
    N 
    身高172.50 10.341 10 前臂长45.40 2.951 10 58 第1 篇 SP SS/ W in 基础
     
    2) 在所显示的“ Correlations”下, 键入“相关分析”,显示效果如下。
    Descriptive Statistics 
    M ean 
    Std. 
    Deviation 
    N 
    身高172.50 10.341 10 前臂长45.40 2.951 10 3) 在“ Descriptive Statistics”处双击鼠标,显示效果如下。
    4) 再次双击“ Descriptive Statistics”并键入“描述性统计量”,显示效果如下。
    5) 双击“ M ean”处并键入“均数”,显示效果如下。
    6) 双击“Std. Deviation”, 并键入“标准差”, 用类似的方法, 可以对其余的信息进行中文
    编辑,最后得到全部汉化编辑后的输出结果(二)。 
    Correlations,相关分析
    Descriptive Statistics,描述性统计量 
    M ean, 均数
    Std. 
    D eviation, 标准差 
    N, 例数
    身高172.50 10.341 10 前臂长45.40 2.951 10 第6 章 SP SS 的汉化编辑59
     
    Correlations,相关分析
    身 高前 臂 长
    身高Pearson Correlation, 皮尔逊相关系数1 .823 ** Sig. (2-tailed), 显著性水平(双侧) . .003 Su m of Squares and Cross-products,叉积平方和962.500 226.000 Covariance,协方差106.944 25.111 N,例数10 10 前臂长Pearson Correlation, 皮尔逊相关系数.823 ** 1 Sig. (2-tailed), 显著性水平(双侧) .003 . Su m of Squares and Cross-products,叉积平方和226.000 78.400 Covariance,协方差25.111 8.711 N,例数10 10 ** . Correlation is significant at the 0.01 level (2-tailed). 在0.01 水平上,相关系数有显著性意义( 双侧) 
    结果分析
    本例得到的身高与前臂长的相关系数是r = 0. 823, P( Sig·(2-taild) = 0. 003) < 0. 01。由
    此可见,相关有显著性意义(双侧)。
    此外,还可知经汉化编辑后的输出结果(二)有很好的可读性;同时,也表明SP SS v11. 0 
    for W indo w s 对汉字操作系统有很好的兼容性。
    60 第1 篇 SP SS/ W in 基础
     
    第 2 篇
    统计分析
    
    
     
    第7章统计报表
    
    
    有时,决策者要求在分析处理数据时,需要含有多种统计量的报表资料,从而获取一些更
    有价值的信息,利用这些信息还可以进行更深入的分析。统计报表(Reports)中的在线分层分
    析(OLAP Cubes)、个案综合分析(CaseSummaries)、按行综合统计报表(ReportSummariesInRows)与按列综合统计报表(ReportSummariesIn Columns)能十分出色地完成这一任务。.. 
    
    7. 1在线分层分析
    在线分层分析(OLAP Cubes,Online AnalyticalProcessing Cubes)可以进行一组变量的各
    类别之间或者不同变量之间的统计。例如:总和(Sum),个案例数(Numberof Cases),均数
    (Mean),中位数(Median),分组中位数(Grouped Median),均数的标准误差(Standard ErrorofMean)等.. 23种。从而能更加准确和高效地对数据进行描述。
    
    例7 
    -1已知.. 97个被调查儿童体检的数据文件.. child .sav。试对身高(x 5)进行关于性别.. 
    (x2)在线分层分析(OLAP Cubes)。
    
    1)打开数据文件.. child.sav。
    2)选择【Analyze】..【Reports】..【OLAP Cubes】,得到如图.. 7-1所示对话框。在图.. 7-1的
    右下方,有.. Statistics(统计量),Differences(差异)与.. Title(标题)3个选项。
    图7 -1OLAP Cubes(在线分层分析)对话框
    
    本例“在线分层分析(OLAP Cubes)”中的综合分析变量(Summary Variable(s))是:身高.. 
    (x5)。分组变量(Grouping Variable(s))是:性别(x 2)(见图7-1)。综合分析变量(SummaryVariable(s))与分组变量(Grouping Variable(s))可以选用多个。
    
    3)单击【Statistics】(统计量),得到如图.. 7-2所示对话框。在此对话框中可进行如下设置。
    .... Sum,总和。.... NumberofCases,例数(N)。
    .... Mean,均数。.... Standard Deviation,标准差。
     
    64第2篇统计分析
    
    图.. 7 -2Statistics(统计量)对话框
    
    .... Percent of Total Sum,总和的百分比。.... Percent of Total N,总例数的百分比。
    .... Median,中位数。.... Grouped Median,分组中位数。.. 
    .... Std.Error of Mean,均数标准误差。.... Minimum,最小值。
    .... Maximum,最大值。.... Range,极差。
    .... First,第一例。.... Last,最后一例。
    .... Variance,方差。.... Kurtosis,峰度系数。.. 
    
    .... Std.ErrorofKurtosis,峰度系数的标准误差。.... Skewness,偏度系数。.. 
    ..Std.ErrorofSkewness,偏度系数的标准误差。.... HarmonicMean,调和均数。
    ..PercentofSumin(×2),×2总和的百分比。.... GeometricMean,几何均数。
    .... Percent of N in (×2),×2总例数的百分比。
    本例将以上所有备选统计量(Statistics)选入单元格统计量(Cell Statistics)中。
    
    4)单击【Continue】..【Differences】(差异),得到如图7-3所示对话框。Differences(差异)
    对话框有如下选项。
    图.. 7 -3Differences(差异)对话框
    
    .... DifferencesforSummaryStatistics,综合统计量的差异。.. 
    ☆None,不选,默认格式。.. 
    ☆Differences between variables,变量间的差异。.. 
    ☆Differences between groups,组间的差异。.. 
    
     
    .. T ype of Difference, 差异的类型。☆ Percentage difference, 百分数差异。 
    ☆ Arith m etic difference, 算术差异。
    .. Differences betw een V ariables, 变量间的差异。☆ V ariable, 变量。 
    ☆ Minus, 负的。 
    ☆ Percent, 百分率。 
    ☆ Arith m etic, 算术。 
    ☆ Pairs, 配对。 
    ☆ Delete Pair, 删除配对。
    .. Differences betw een Groups of Cases, 个案组间的差异。☆ Grouping, 分组。 
    ☆ Category, 分类。 
    ☆ Minus,负的。 
    ☆ Percent,百分率。 
    ☆ Arith m etic,算术。 
    ☆ Pairs, 配对。 
    ☆ Delete Pair, 删除配对。
    由于本例未指明计算变量或个案分组间的差异,因此,如图7-3 所示,有些选项不能选择。
    5) 单击【Cancel】..【Title】(标题),得到如图7-4 所示对话框。
    图7-4 O L A P Cabes: Title(标题)对话框
    在Title(标题)选项内,键入“(关于身高的分析)”。Caption(标题说明)选项未选择。
    6) 单击【Continue】..【O K】,得到结果一。
    结果一 
    男与女(即总计, Total): O L A P C ubes(关于身高的分析),在线分层分析
    Case Processing Su m m ary 
    Cases 
    Included Excluded Total 
    N Percent N Percent N Percent 
    身高(x5,c m ) * 性别(x2) 96 99. 0 % 1 1. 0 % 97 100. 0 % 第7 章 统计报表65
     
    O L A P Cubes(关于身高的分析) 
    性别(x2): Total 
    Su m N M ean 
    Std. Deviation 
    % of 
    Total Su m 
    % of 
    Total N 
    身高(x5,c m) 10 549. 5 96 109. 891 5. 963 3 100. 0 % 100. 0 % O L A P Cubes (关于身高的分析) 
    性别(x2): Total 
    V ariables 
    Statistics 
    M edian 
    Grouped 
    M edian 
    Std. Error of M ean 
    M inim u m M axim u m R ange 
    身高(x5,c m ) 109. 250 109. 267 . 608 6 99. 3 125. 0 25. 7 O L A P Cubes(关于身高的分析) 
    性别(x2): Total 
    V ariables 
    Statistics 
    First Last Variance K urtosis 
    Std. Error of K urtosis 
    Skew ness 
    身高(x5,c m ) 110. 6 102. 0 35. 561 -. 446 . 488 . 350 O L A P Cubes(关于身高的分析) 
    性别(x2): Total 
    V ariables 
    Statistics 
    Std. Error of Skew ness 
    Harm onic 
    M ean 
    Geo m etric 
    M ean 
    % of Su m in 
    性别(x2) % of N in 
    性别(x2) 身高(x5,c m ) . 246 109. 575 109. 732 100. 0 % 100. 0 % 7) 在如下显示的“性别”处双击,再选择“1 - 男”,得到结果二。
    结果二 
    O L A P Cubes(关于身高的分析) 
    性别(x2):1 - 男
    Su m N M ean 
    Std. Deviation 
    % of Total 
    Su m 
    % of 
    T otal N 
    身高(x5,c m ) 5494. 3 50 109. 886 6. 194 52. 1 % 52. 1 % 66 第2 篇 统计分析
     
    O L A P Cubes(关于身高的分析) 
    性别(x2):1 - 男
    M edian 
    Grouped 
    M edian 
    Std. Error of M ean 
    M inim u m M axim u m R ange 
    身高(x5,c m ) 109. 100 109. 100 . 876 100. 0 125. 0 25. 0 O L A P Cubes(关于身高的分析) 
    性别(x2):1 - 男
    First Last Variance K urtosis 
    Std. Error of K urtosis 
    Skew ness 
    身高(x5,c m ) 110. 6 120. 8 38. 363 -. 397 . 662 . 510 O L A P Cubes(关于身高的分析) 
    性别(x2):1 - 男
    Std. Error of Ske w ness 
    Harm onic 
    M ean 
    G eo m etric 
    M ean 
    % of Su m in 
    性别(x2) % of N in 
    性别(x2) 身高(x5,c m ) . 337 109. 552 109. 718 52. 1 % 52. 1 % 8) 在如下显示的“性别”处双击,再选择2 - 女,得到结果三。
    结果三 
    O L A P Cubes(关于身高的分析) 
    性别(x2):2 - 女
    Su m N M ean 
    Std. Deviation 
    % of Total 
    Su m 
    % of 
    T otal N 
    身高(x5,c m ) 5 055. 2 46 109. 896 5. 771 47. 9 % 47. 9 % O L A P Cubes(关于身高的分析) 
    性别(x2):2 - 女
    M edian 
    Grouped 
    M edian 
    Std. Error of M ean 
    M inim u m M axim u m R ange 
    身高(x5,c m ) 109. 450 109. 433 . 851 99. 3 122. 3 23. 0 第7 章 统计报表67
     
    O L A P Cubes(关于身高的分析) 
    性别(x2):2 - 女
    First Last Variance K urtosis 
    Std. Error of K urtosis 
    Skew ness 
    身高(x5,c m ) 106. 8 102. 0 33. 300 -. 448 . 688 . 146 O L A P Cubes(关于身高的分析) 
    性别(x2):2 - 女
    Std. Error of Ske w ness 
    Harm onic 
    M ean 
    G eo m etric 
    M ean 
    % of Su m in 
    性别(x2) % of N in 
    性别(x2) 身高(x5,c m ) . 350 109. 600 109. 748 47. 9 % 47. 9 % 7. 2 个案综合分析
    对已知数据进行统计分析时,先对数据的实际统计量以列表形式显示,即进行个案综合分
    析( Case Su m m aries), 有利于提高统计分析的效能。
    例7-2 已知97 个被调查儿童体检数据文件child. sav,试对体重( x4 )、身高( x5 )关于性
    别( x2 )的个案进行综合分析( Case Su m m aries)。
    1) 打开数据文件child. sav. 
    2) 选择【A nalyze】..【Reports】..【Case Su m m aries】,得到如图7-5 所示对话框。
    图7-5 Su m m aries Cases(综合个案分析)对话框
    综合个案分析(Su m m arize Cases)的变量( V ariables)是“体重( x4)”和“身高( x5)”。分组变
    量( Grouping V ariable(s))是“性别( x2)”。另外,还有如下选项。
    .. Display cases,显示个案。☆ Limit cases to, 最多分析个案的例数,默认数是100 例。
    68 第2 篇 统计分析
     
    ☆ Sho w only valid cases,仅显示有效个案。 
    ☆ Sho w case nu m bers,显示个案的编号。
    3) 单击【Statistics】,得到如图7-6 所示对话框。
    图7-6 Su m m ary Report:Statistics(统计量)对话框 
    本例的单元统计量( Cell Statistics)选用了全部统计量( Statistics),共21 个。
    .. N u m ber of Cases,例数( N )。 .. M ean,均数。.. M edian,中位数。.. Grouped M edian,分组中位数。
    .. Std. Error of M ean,均数标准误差。.. Su m ,总和。
    .. M inim u m ,最小值。.. M axim u m,最大值。
    .. R ange,极差。.. First,第一例。
    .. Last,最后一例。.. Standard Deviation,标准差。
    .. V ariance,方差。.. K urtosis,峰度系数。
    .. Std. Error of K urtosis,峰度系数的标准误差。.. Ske w ness,偏度系数。
    .. Std. Error of Ske w ness,偏度系数的标准误差。.. Har m onic M ean,调和均数。
    .. G eo metric M ean,几何均数。.. Percent of Total Su m,总和的百分比。
    .. Percent of Total N ,总例数的百分比。
    4) 单击【Continue】..【O ptions】,得到如图7-7 所示对话框。
    图7-7 O ptions(选择项)对话框
    5) 单击【Continue】..【O K】,得到结果。
    第7 章 统计报表69
     
    个案综合分析( Case Su m m aries) 
    W arnings 
    Percentage statistics N P C T , SP C T, N P C T () and SP C T () are available only with the su m mary reports. N one of the specified percentage statistics will be co m puted for this listing report that has been requested by the LIS T or 
    V A LID LIS T keyw ord in the F O R M A T subco m m and. 个案处理综合分析
    Case Processing Su m marya 
    Table 
    Cases 
    Included E xluded Total 
    Statistics Statistics Statistics 
    N Percent N Percent N Percent 
    体重(x4,kg) * 性别(x2) 96 99. 0 % 1 1. 0 % 97 100. 0 % 体重(x5,kg) * 性别(x2) 96 99. 0 % 1 1. 0 % 97 100. 0 % a. Limited to first 100 cases 
    个案综合分析( Case Su m m aries)a 
    体重(x4,kg) 身高(x5,c m) 性别 1-男1 18. 0 110. 6 (x2) 2 15. 3 103. 2 3 20. 6 112. 5 4 19. 5 111. 1 5 16. 7 105. 8 6 17. 4 109. 5 7 15. 6 104. 6 8 15. 2 101. 7 9 15. 1 100. 1 10 19. 5 108. 2 11 17. 0 105. 1 12 17. 5 106. 9 13 18. 9 112. 2 14 17. 7 109. 0 15 17. 3 110. 3 16 15. 2 105. 0 17 17. 2 106. 6 18 14. 4 100. 5 19 18. 2 109. 3 20 18. 3 100. 7 21 15. 1 100. 0 22 16. 6 103. 4 23 16. 6 105. 7 24 13. 0 105. 7 25 19. 5 109. 3 a. Limited to first 100 cases 
    70 第2 篇 统计分析
     
    个案综合分析( Case Su m m aries)a 
    体重(x4,kg) 身高(x5,cm ) 性别 1-男26 24. 6 118. 6 (x2) 27 21. 8 120. 5 28 19. 3 116. 2 29 18. 2 113. 2 30 15. 9 108. 2 31 16. 7 110. 8 32 25. 1 125. 0 33 20. 5 116. 4 34 20. 0 117. 0 35 21. 0 120. 4 36 22. 8 114. 0 37 17. 5 109. 8 38 17. 5 107. 5 39 21. 0 119. 0 40 15. 3 103. 7 41 19. 1 111. 5 42 16. 0 108. 8 43 15. 1 108. 0 44 16. 1 108. 8 45 18. 3 109. 2 46 21. 8 120. 5 47 17. 3 106. 8 48 16. 4 103. 5 49 21. 3 119. 1 50 25. 6 120. 8 Total N 50 50 M ean 18. 192 109. 886 M edian 17. 500 109. 100 Grouped M edian 17. 550 109. 100 Std. Error of M ean . 3956 . 8759 Su m 909. 6 5494. 3 M inim u m 13. 0 100. 0 M axim u m 25. 6 125. 0 Range 12. 6 25. 0 First 18. 0 110. 6 Last 25. 6 120. 8 Std. Deviation 2. 7970 6. 1938 V ariance 7. 823 38. 363 K urtosis . 474 -. 397 Std. Error of K urtosis . 662 . 662 Ske w ness . 822 . 510 Std. Error of Ske w ness . 337 . 337 H ar monic M ean 17. 803 109. 552 Geo m etric M ean 17. 993 109. 718 a. Limited to first 100 cases 
    第7 章 统计报表71
     
    个案综合分析( Case Su m m aries)a 
    体重(x4,kg) 身高(x5,c m) 性别 2-女1 16. 3 106. 8 (x2) 2 19. 1 109. 7 3 17. 8 109. 2 4 15. 9 107. 0 5 15. 3 108. 2 6 17. 3 105. 5 7 16. 1 108. 7 8 19. 9 110. 2 9 19. 2 105. 2 10 16. 4 107. 5 11 15. 8 102. 5 12 15. 8 109. 4 13 17. 5 107. 6 14 15. 2 105. 6 15 14. 7 102. 0 16 16. 2 99. 3 17 13. 9 100. 5 18 14. 7 99. 7 19 15. 0 100. 6 20 20. 0 115. 0 21 19. 3 112. 1 22 19. 7 118. 5 23 18. 8 113. 6 24 17. 2 109. 5 25 20. 0 114. 3 26 22. 9 120. 0 27 20. 8 117. 5 28 18. 1 112. 8 29 20. 9 115. 3 30 18. 3 112. 6 31 17. 5 109. 5 32 16. 3 109. 0 33 16. 9 109. 2 34 22. 0 115. 8 35 13. 6 106. 8 36 14. 9 104. 2 37 17. 6 109. 2 38 17. 7 109. 6 39 24. 8 110. 8 40 24. 4 116. 2 41 18. 0 110. 5 42 24. 3 122. 3 43 30. 0 120. 0 44 21. 5 119. 9 45 17. 9 113. 8 46 16. 1 102. 0 a. Limited to first 100 cases 
    72 第2 篇 统计分析
     
    个案综合分析( Csae Su m m aries)a 
    体重(x4, kg) 身高(x5,c m ) 性别 2-女 Total N 46 46 (x2) M ean 18. 361 109. 896 M edian 17. 750 109. 450 Grouped M edian 17. 750 109. 433 Std. Error of M ean . 4798 . 8508 Su m 844. 6 5055. 2 M inim u m 13. 6 99. 3 M axim u m 30. 0 122. 3 Range 16. 4 23. 0 First 16. 3 106. 8 Last 16. 1 102. 0 Std. Deviation 3. 2541 5. 7706 V ariance 10. 589 33. 300 K urtosis 2. 538 -. 448 Std. Error of K urtosis . 688 . 688 Ske w ness 1. 322 . 146 Std. Error of Ske w ness . 350 . 350 H ar monic M ean 17. 875 109. 600 Geo m etric M ean 18. 106 109. 748 a. Limited to first 100 cases 
    个案综合分析( Case Su m m aries)a 
    体重(x4, kg) 身高(x5,c m ) 性别 T otal 
    (x2) N
    M ean 
    M edian 
    Grouped M edian 
    Std. Error of M ean Su m 
    M inim u m 
    M axim u m 
    Range 
    First 
    Last 
    Std. Deviation Variance 
    K urtosis 
    Std. Error of K urtosis Skew ness 
    Std. Error of Ske w ness Harm onic M ean 
    G eom etric M ean 
    96 18. 273 17. 650 17. 633 . 3072 1754. 2 13. 0 30. 0 17. 0 18. 0 16. 1 3. 0097 9. 058 1. 763 . 488 1. 120 . 246 17. 837 18. 047 96 109. 891 109. 250 109. 267 . 6086 10549. 5 99. 3 125. 0 25. 7 110. 6 102. 0 5. 9633 35. 561 -. 446 . 488 . 350 . 246 109. 575 109. 732 a. Limited to first 100 cases 
    第7 章 统计报表73
     
    74 第 2 篇 统 计 分 析 
    
    7. 3按行综合统计报表
    按行进行综合统计报表(ReportSummariesin Rows),可以得到行形式表达变量(或指标)
    的统计量输出报告,它有利于更深入地对数据进行统计分析。
    例7 
    -3已知.. 97名被调查儿童体检数据文件child .sav。试对身高(x 5),体重(x 4)与胸围.. 
    ( x7)关于性别( x 2)进行按行形式的综合统计报表。
    
    1)调入数据文件.. child.sav。
    2)选择【Analyze】..【Reports】..【ReportSummariesin Rows】,得到如图7-8所示对话框。
    图7 -8 Su mmariesin Rows(行综合统计报表)对话框
    
    在.. Data Columns(数据列)中,引入身高(x 5),体重(x 4),胸围(x 7)。在.. Break Columns(分
    类列)中,引入性别( x 2)。
    
    .... Sort Sequence(变量输出时的排列顺序)有如下选项。 
    ☆Ascending,升幂(本例选用)。 
    ☆Descending,降幂。
    
    
    其他选项如下。 
    ..Display cases,显示变量的个案。 
    ..Data are already sorted,数据已经排序。
    
    
    3)在图7-8所示对话框中,单击【Summary】,得到如图7-9所示对话框。
    在.. Report:Summary Linesforx2对话框中可进行如下设置。 
    ..Sum ofvalues,变量值的和。 
    ..Meanofvalues,变量值的均数。 
    ..Minimum value,最小值。 
    ..Maximum value,最大值。 
    ..Numberofcases,例数(N)。 
    ..Percentage above value ,高于某值的数据百分数。 
    ..Percentage below value ,低于某值的数据百分数。 
    ..PercentageinsideLow.High.,界于Low与High之间的数据百分比。 
     
    .. Standard deviation,标准差。
    .. K urtosis,峰度。
    .. V ariance,方差。
    .. Skew ness,偏度。
    4) 单击【Continue】..【O ptions】(选择项),得到如图7-10 所示对话框。
    图7-9 Report:Su m mary Lines for x2(x2 的综合统计报表)对话框
    图7-10 Report:Break Options for x2(x2 的分类选择项)对话框
    在Report: Break O ptions for x2 对话框中可以进行如下设置。
    .. Page Control,页码的控制。☆ Skip lines before break 1,在分组变量前设置1 个空行。 
    ☆ Begin next page,在新一页开始输出下一个分组变量。 
    ☆ Begin ne w page & reset page nu m ber,在新一页开始输出下一个分组变量并连续上一页输出下一页的页码。
    .. Blank Lines before Su m m aries: 0,在综合分析前,插入0 个空行。
    5) 单击【Continue】..【For m at】(输出格式),得到如图7-11 所示对话框。
    图7-11 Report:Break For mat for x2(x2 的分类输出格式)对话框
    第7 章 统计报表75
     
    在Report: Break For m at for x2 对话框中可进行如下设置。
    .. Colu m n Title,列的标题。
    .. Colu m n title justification,当前列标题对齐的方式。☆ Left,左对齐。 ☆ Center,中对齐。 ☆ Right,右对齐。
    .. V alue Position within Colu m n,变量值在列中的位置。☆ Offset fro m left,从左开始。 
    ☆ Offset A m ount: n,从左数n 列开始。 
    ☆ Centered within colu m n,变量值在列的中央。
    .. Colu m n W idth,列的宽度。
    .. Colu m n Content,列的内容。☆ V alues,数值。 
    ☆ V alue labels,值的标识。
    6) 单击【Continue】。
    7) 在Report 中,单击【Su m m ary】(Final Su m m ary Lines,最终综合分析线),得到如图7-12 
    所示对话框。
    在Report: Final Su m m ary Lines(最终综合分析线)对话框中的统计量(见图7-12)与以上
    的Su m m ary (Su m m ary Lines for x2)的统计量(见图7-9)设置是不完全一致的。
    8) 单击【Continue】..【O ptions】,得到如图7-13 对话框。
    图7-12 Report:Final Sum mary Lines(最终综合分析线)对话框图7-13 Report: Options(选择项)对话框
    在O ptions(选择项)对话框中可进行如下设置。
    .. E xclude cases with missing values listwise,删除含有缺失值的个案。
    .. M issing V alues A ppear as:. ,输入表示缺失值的符号,默认是圆点“. ”。
    .. N u m ber Pages fro m 1,从第一页输出报表的页码值。
    9) 单击【Continue】..【Layout】(输出布局),得到如图7-14 所示对话框。
    在Layout(输出布局)对话框中可进行如下设置。
    .. Page Layout,页面布局。☆ Page Begins on Line,设置一页输出开始的行数。 
    ☆ E nds on Line,设置一页输出结束的行数。 
    ☆ Line Begins in Colu m n,设置列输出的左边距。 
    ☆ E nds in Colu m n, 设置列输出的右边距。 
    ☆ Align m ent within M argins,设置边线输出对齐的方式,左( Left),中( Center),右( Right)。
    76 第2 篇 统计分析
     
    第 7 章 统 计 报 表 77 
    
    图.. 7-14Report:Layout(输出布局)对话框
    
    .... Page Titles and Footers,设置一页输出的标题与脚注。.. 
    ☆Lines after title(s) ,设置标题与报表间之后的空行数。.. 
    ☆Lines before footer(s),设置脚注与报表间之前的空行数。.. 
    
    ..Column Titles,列标题。.. 
    ☆Underscoretitles,在列标题下划线。.. 
    ☆Linesaftertitle(s) 1,设置列标题下的空行数。.. 
    ☆Verticallyalign: Bottom ,设置列标题相互平行的方式。可选择:Bottom(设置列
    
    标题的底部相互平行),Top(设置列标题的顶端相互平行)。
    
    .... Break Columns,设置多个分组变量为分开的列。.. 
    ☆Allbreaksinfirstcolumn,选择所有的分组变量位于第一列中。.. 
    ☆Indent at each break: 2 ,不同水平的分组变量向右缩进.. 2个空格。
    
    ..DataColumn Rows & Break Labels,设置分组变量的标识与下一行间的距离。.. 
    ☆Automaticallyalignvertically,第一个统计量自动设置为下一行中。.. 
    ☆Displayonsamerow,显示同一行的分组变量。.. 
    ☆Displaybelowlabels,显示下列分组变量的标识。.. 
    ☆Linesafterlabels,设置行之后。
    
    10)单击【Continue】..【Titles】,得到如图.. 7-15所示对话框。.. 
    
    图7-15Report:Titles(标题)对话框.. 
    
     
    78第2篇统计分析
    
    11)单击【Continue】..【OK】,得到运行结果。
    
    Report,按行综合统计报表(ReportSummariesIn Rows)
    
    性别.. (x2)身高.. (x5,cm)体重.. (x4,kg)胸围.. (x7,cm) 
    . 
    Sum . . . 
    M ean . . . 
    Minimum . . . 
    M aximum . . . 
    N 0 0 0 
    StdDev . . . 
    Variance . . . 
    1 -男.. 
    Sum 5494. 3 909. 6 2690. 5 
    M ean 109. 9 18. 2 53. 8 
    Minimum 100. 0 13. 0 50. 0 
    M aximum 125. 0 25. 6 62. 0 
    N 50 50 50 
    StdDev 6. 2 2. 8 2. 7 
    Variance 38. 4 7. 8 7. 3 
    2 -女.. 
    Sum 5055. 2 844. 6 2472. 0 
    M ean 109. 9 18. 4 53. 7 
    Minimum 99. 3 13. 6 46. 0 
    M aximum 122. 3 30. 0 94. 0 
    N 46 46 46 
    StdDev 5. 8 3. 3 7. 2 
    Variance 33. 3 10. 6 51. 5 
    Grand Total 
    Sum 10549. 5 1754. 2 5162. 5 
    M ean 109. 9 18. 3 53. 8 
    Minimum 99. 3 13. 0 46. 0 
    M aximum 125. 0 30. 0 94. 0 
    N 96 96 96 
    StdDev 6. 0 3. 0 5. 3 
    Kurtosis -. 45 1. 76 35. 05 
    Variance 35. 6 9. 1 28. 1 
    Skewness . 35 1. 12 4. 98
    
    如果加选一些标题(Titles),可读性将更好。.. 
    
     
    第7章统计报表79
    
    7. 4按列综合统计报表
    按列进行综合统计报表(ReportSummariesin Columns),可以得到列形式表达变量(或指
    标)的统计量输出报告,它有利于更深入地对数据进行统计分析。
    
    例7 
    -4已知幼儿资料的数据文件(共.. 97例,其中有1例缺失值)child .sav。试对体重.. 
    ( x4,kg)的均数( Mean)、标准差(StdDev),身高( x 5,cm)的总和(Sum),胸围( x 7,cm)的最小值
    ( Minimum)与性别( x 2)的例数(N)关于年龄(age)分组进行列形式的统计报表。
    
    1)调入数据文件.. child.sav。
    2)选择【Analyze】..【Reports】..【ReportSummariesin Columns】,得到如图7-16所示对话
    框。
    图7 -16 Report:Sum mariesinColumns(列综合统计报表)对话框
    
    在.. Data Columns(数据列)中(图.. 7-16),先引入.. x 4(默认统计量为.. Sum,体重的总和)。在
    Insert Total右边,单击【Summary】(综合统计量),得到如图7-17所示对话框。
    
    图7 -17 Report:Su mmary Lines forx4(报表)对话框
    
    3)在.. Report:Summary Linesforx4对话框中有如下备选统计量。.. 
     
    .. Su m of values,变量值的和。 .. Standard deviation,标准差。.. M ean of values,变量值的均数。.. V ariance,方差。
    .. M inim u m values,最小值。.. K urtosis,峰度。
    .. M axim u m values,最大值。.. Skew ness,偏度。
    .. N u m ber of cases,例数( N )。
    .. V alue, 取值。☆ Percentage above, 高于某值以后的数据百分比。 
    ☆ Percentage belo w , 低于某值以后的数据百分比。
    .. Percentage inside,界于Lo w 与High 之间的数据百分比。
    本例先选择M ean of values(变量值的均数)(见图7-17)。
    4) 单击【Continue】。在Data Colu m ns 中(见图7-18),再引入x4 。在Insert T otal 右边,单
    击【Su m m ary】。在Report: Su m m ary Lines for x4 对话框的备选统计量中,选择Standard deviation(
    变量值的标准差)。单击【Continue】,得到如图7-19 所示对话框。
    图7-18 Su m maries in Colu m ns(列综合统计报表)对话框
    图7-19 Su m maries in Colu m ns(列综合统计报表)对话框
    5) 在Data Colu m ns 中,再引入x5 。在Insert Total 右边,单击【Su m m ary】。在Report: 
    Su m m ary Lines for x5 的备选统计量中,选择Su m of values(变量值的和)。单击【Continue】。
    80 第2 篇 统计分析
     
    在Data Colu m ns 中,再引入x7 。在Insert Total 右边,单击【Su m m ary】。在Report: Su m m ary 
    Lines for x7 的备选统计量中,选择M inim u m value(最小值)。单击【Continue】。最后,在Data 
    Colu m ns 中,再引入x2 。在(Insert T otal)右边,单击【Su m m ary】。在Report: Su m m ary Lines 
    for x2 的备选统计量中,选择N u m ber of cases(例数( N ))。
    6) 单击【Continue】, 得到如图7-20 所示对话框。在Break Colu m ns( 分组列) 中(见图
    7-21),引入age( Ascending)。
    图7-20 Su m m aries in Colu m ns 
    (列综合统计报表)对话框
    图7-21 Su m m aries in Colu m ns 
    (列综合统计报表)对话框
    图7-22 Break Options for age O ptions(选择项)对话框 
    7) 单击【Continue】,在Break Colu m ns(分组列)中(见图7-21)单击【O ptions】。得到如图
    7-22 所示对话框。在此对话框可进行如下设置。
    .. Subtotal,小计。☆ Display subtotal,显示小计。 
    ☆ Label,标识。 
    ☆ Subtotal age,默认是年龄的小计。
    .. Page Control,页码的控制。☆ Skip lines before break 1,在分组变量间设置1 个空行。 
    ☆ Begin next page,在新一页开始输出下一个分组变量。 
    ☆Begin ne w page & reset page nu m ber,在新一页开始,输出下一个分组变量并连续上一页输出下一页的页码。
    第7 章 统计报表81
     
    .. Blank Lines before Subtotal 0,在小计前插入0 个空行。
    8) 单击【Continue】,在Report 中单击【O ptions】, 得到如图7-23 所示对话框。在Report: 
    O ptions 对话框中可进行如下设置。
    .. Grand T otal,总计。☆ Display grand total,显示总计。 
    ☆ Label: 标识。Grand Total ,默认是:总计。
    图7-23 Report: O ptions(选择项)对话框
    .. E xclude cases with missing values listwise,删除含有缺失值的个案。
    .. M issing values appear as: . , 输入表示缺失值的符号,默认是圆点“. ”。
    .. N u m ber pages fro m 1 ,第一页输出报表的页码值。
    9) 单击【Continue】,在Report 中,单击【Layout】(输出布局),得到如图7-24 所示对话框。
    图7-24 Report:Layout(输出布局)对话框
    Report: Layout(输出布局)对话框有如下选项。
    .. Page Layout,页面布局。☆ Page begins on line,设置一页输出开始的行数。 
    ☆ E nds on line,设置一页输出结束的行数。 
    ☆ Line begins in colu m n,设置一页输出的左边距。 
    ☆ E nds in colu m n,设置一页输出的右边距。 
    ☆ Align ment within m argins,设置一页输出对齐的方式,左对齐( Left),中对齐( Cen- 82 第2 篇 统计分析
     
    ter),右对齐( Right)。默认是中对齐。
    .. Page Titles and Footers,设置一页输出的标题与脚注。☆ Lines after title(s),设置标题与报表间的空行数。 
    ☆ Lines before footer(s),设置脚注与报表间的空行数。
    .. Colu m n Titles,列标题。☆ U nderscore titles,在列标题下划线。 
    ☆ Lines after title(s),设置列标题下的空行数。 
    ☆ V ertically align,设置列标题相互平行的方式。可选用Botto m (设置列标题的底部相互平行), T op(设置列标题的顶端相互平行)。
    .. Break Colu m ns,设置多个分组变量为分开的列。☆ All breaks in first colu m n,选用所有的分组变量位于第一列中。 
    ☆ Indent at each break:2,不同水平的分组变量向右缩进2 个空格。
    10) 单击【Continue】,在Report 中,再单击【Titles】(标题),得到如图7-25 所示的对话框。
    Titles(标题)对话框有多个选项,本例未选用。
    图7-25 Report: Titles(标题)对话框
    11) 单击【Continue】..【O K】,得到结果。 
    Report,(按列综合统计报表, Report Su m m aries in Colu m ns) 
    Report,报表
    体重(x4,kg) 体重(x4,kg) 身高(x5,cm ) 胸围(x7,cm ) 性别(x2) 
    年龄(age) M ean StdDev Su m Minim u m N 
    . . . . . 0 
    5(周岁) 15. 8 1. 5 1756. 2 48. 0 17 
    6(周岁) 17. 7 2. 3 5553. 1 46. 0 51 
    7(周岁) 20. 7 3. 2 3240. 2 50. 0 28 
    Grand Total 18. 3 3. 0 10549. 5 46. 0 96 
    本模式可以在D ata Colu m ns(数据列)中,多次引入备选变量与相应的综合统计量,此外还
    可以选择Insert Total(插入小计)等。
    第7 章 统计报表83
     
    第8 章 描述性统计分析
    描述性统计分析( Descriptive Statistics)具有一系列的基本统计分析与作图( Graphs)功能。
    其中有频数分布分析(Frequencies), 描述性分析( Descriptives), 探索性分析( Explore) ,列联
    表分析( Crosstabs)与比率统计分析( Ratio)。这些结果(统计量与图形)有助于深入认识观察数
    据的分布特征。
    8. 1 单变量频数分布分析
    单变量频数分布分析( Frequencies) 模块可以产生频数分布表( Frequency Table), 集中
    趋势( Central Tendency) 与离散趋势( Dispersion) 的15 种以上统计量: 均数( M ean), 均数
    的标准误差(Std. Error of M ean),中位数( M edian),众数( M ode),标准差( Std. D eviation),方
    差( Variance),偏度系数(Ske w ness),偏度系数的标准误差(Std. Error of Skew ness),峰度系数
    ( K urtosis),峰度系数的标准误差(Std. Error of K urtosis),极差(全距, Range),最小值( M inim 
    u m), 最大值( M axim u m ), 总和( Su m ), 并能给出百分位数( Percentiles), 作出条形图( Bar 
    charts),饼形图(Pie Charts)或直方图( Histogra ms),频数分布表的输出格式( Form at)可以由用
    户加以选择。
    例8-1 某单位对100 名健康女大学生测定了血清总蛋白含量(seru m ,g/ L),得到表8-1。
    试做单变量频数分布分析并作直方图。(金丕焕.医用统计方法.上海:上海医科大学出版社, 
    1993:16) 
    表8-1 健康女大学生的血清总蛋白含量
    74. 3 78. 8 68. 8 78. 0 70. 4 80. 5 80. 5 69. 7 71. 2 73. 5 79. 5 75. 6 75. 0 78. 8 72. 0 72. 0 72. 0 74. 3 71. 2 72. 0 75. 0 73. 5 78. 8 74. 3 75. 8 65. 0 74. 3 71. 2 69. 7 68. 0 73. 5 75. 0 72. 0 64. 3 75. 8 80. 3 69. 7 74. 3 73. 5 73. 5 75. 8 75. 8 68. 8 76. 5 70. 4 71. 2 81. 2 75. 0 70. 4 68. 0 74. 0 72. 0 76. 5 74. 3 76. 5 77. 6 67. 3 72. 0 75. 0 74. 3 73. 5 79. 5 73. 5 74. 7 65. 0 76. 5 81. 6 75. 4 72. 7 72. 7 67. 2 76. 5 72. 7 70. 4 77. 2 68. 8 67. 3 67. 3 67. 3 72. 7 75. 8 73. 5 75. 0 72. 7 73. 5 73. 5 72. 7 81. 6 70. 3 74. 3 73. 5 79. 5 70. 4 76. 5 72. 7 77. 2 84. 3 75. 0 76. 5 70. 4 1) 建立数据文件frequen1. sav。
    2) 选择【A nalyze】..【Descriptive Statistics】..【Frequencies】,得到如图8-1 所示对话框。
    频数分布分析的变量( V ariable(s)),本例是seru m (血清总蛋白)。频数分布分析模型一次
    可以选择40 个以上变量, 然后对每一个变量逐个进行分析。选择默认项Display frequency
     
    tables,显示频数分布表。
    图8-1 Frequencies(频数分布分析)对话框
    3) 单击【Statistics】(统计量),得到如图8-2 所示对话框。
    图8-2 Frequencies:Statistics(统计量)对话框
    Frequencies:Statistics(频数分布分析的统计量)对话框有如下设置选项。
    .. Percentile V alues,百分位数值,它是一种位置指标。☆ Q uartiles,四分位数,即第1 四分位数(也称下四分位数, P2 5)、第2 四分位数(即中位数, P5 0)与第3 四分位数(也称上四分位数, P7 5)。 
    ☆ Cut points for 10 equal groups,将全部观察值等分,如果选择此项,默认是10 等分,即10 分位数,各有1/ 10 的观察值,其第1 十分位数( P1 0),第2 十分位数
    ( P2 0) ,..,第9 十分位数( P9 0 )。用户也可以任意等分。 
    ☆ Percentile(s),用户可另选百分位数。本例加选P2. 5 和P9 7. 5 。
    .. Central Tendency,集中趋势。☆ M ean,均数。 ☆ M edian,中位数。☆ M ode,众数。 ☆ Su m ,总和。
    .. Dispersion,离散趋势。☆ Std. deviation:标准差。 ☆ Minim u m ,最小值。 
    ☆ V ariance,方差。 ☆ M axim u m ,最大值。 
    ☆ R ange,极差(全距)。 ☆ S. E. m ean,均数的标准误差。
    .. V alues are group midpoints,取组中值。
    .. Distribution,分布分析。第8 章 描述性统计分析85
     
    ☆ Ske w ness,偏度系数及其标准误差(S. E Skew )。 
    ☆ K urtosis,峰度系数及其标准误差(S. E. K urt)。
    4) 单击【Continue】..【C harts】,得到如图8-3 所示对话框。
    图8-3 Frequencies:C harts(作图)对话框
    Frequencies: C harts(频数分布分析的作图)对话框有如下选项。
    .. Chart Type,图形类型。☆ N one,不作图表。 
    ☆ Bar charts,条形图。 
    ☆ Pie charts,饼形图。 
    ☆ Histogra ms,直方图。可以选择W ith nor m al curve,将正态曲线加入直方图中(本例要求作出带有正态曲线的直方图)。
    .. Chart V alues,图的标识显示。☆ Frequencies,频数。 ☆ Percentages,百分数。
    5) 单击【Continue】..【For m at】,得到如图8-4 所示对话框。
    图8-4 Frequencies:Form at(输出格式)对话框
    Frequencies: For m at(频数分布分析的输出格式)对话框有如下选项。
    .. Order by,排列秩序。☆ Ascending values,按观察值由小到大排列,即升序排列。 
    ☆ Descending values,按观察值由大到小排列,即降序排列。 
    ☆ Ascending counts,按观察值的计数由小到大排列,即升序排列。 
    ☆ Descending counts,按观察值的计数由大到小排列,即降序排列。
    .. M ultiple V ariables,多重变量。☆ Co m pare variables, 比较变量(默认格式)。 
    ☆ Organize output by variables,用变量组织输出结果。
    86 第2 篇 统计分析
     
    .. Suppress tables with m ore than 10 categories,如果分类数超过10,那么删除频数表。
    6) 单击【Continue】..【O K】,得到结果和直方图(见图8-5)。 
    Frequencies,频数分布分析
    统计量
    Statistics 
    血清总蛋白(seru m ,克/ 升) 
    N Valid 100 Missing 0 M ean 73. 696 Std. Error of M ean . 3926 M edian 73. 792 a 
    M ode 73. 5 Std. Deviation 3. 9264 Variance 15. 4168 Skew ness . 039 Std. Error of Skew ness . 241 Kurtosis . 071 Std. Error of K urtosis . 478 Range 20. 0 M inim u m 64. 3 M axim u m 84. 3 Su m 7369. 6 Percentiles 2. 5 65. 733b 10 68. 320 20 70. 400 25 71. 200 30 71. 927 40 72. 922 50 73. 792 60 74. 567 70 75. 500 75 75. 975 80 76. 578 90 79. 150 97. 5 81. 467 a. Calculated fro m grouped data 
    b. Percentiles are calculated from grouped data 
    第8 章 描述性统计分析87
     
    图8-5 直方图 
    结果分析
    有效例数( N, V alid) = 100。 缺失例数( N , Missing) = 0。平均数( M ean) = 73. 696。均数标准误差(Std. Error of M ean) = 0. 3926。
    中位数( M edian,50 % ) = 73. 792。众数( M ode) = 73. 5。
    标准差(Std. D eviation) = 3. 9264。方差( V ariance) = 15. 4168。
    偏度系数(Ske w ness) = 0. 039。偏度系数标准误差(Std. Error of Ske w ness) = 0. 241。
    峰度系数( K urtosis) = 0. 071。峰度系数标准误差(Std. Error of K urtosis) = 0. 478。
    极差( R ange) = 20. 0。最小值( M inim u m ) = 64. 3。
    最大值( M axim u m ) = 84. 3。总和(Su m ) = 7369. 6。
    本例还得到等距为10 的百分位数, 以及第2. 5 百分位数(65. 733), 第97. 5 百分位数
    (81. 467)。还有频数表( Frequency tables)与直方图( Histogra m )(见图8-5)。
    例8-2 某地101 例30 ~ 49 岁健康男子血清总胆固醇值( x, m mol/ L)测定结果如表8-2。
    试作频数分布分析与直方图。(杨树勤.卫生统计学.第3 版,北京:人民卫生出版社,1993:220) 
    表8-2 健康男子血清总胆固醇值
    4. 77 3. 37 6. 14 3. 95 3. 56 4. 23 4. 31 4. 71 5. 69 4. 12 4. 56 4. 37 5. 39 6. 30 5. 21 7. 22 5. 54 3. 93 5. 21 6. 51 5. 18 5. 77 4. 79 5. 12 5. 20 5. 10 4. 70 4. 74 3. 50 4. 69 4. 38 4. 89 6. 25 5. 32 4. 50 4. 63 3. 61 4. 44 4. 43 4. 25 4. 03 5. 85 4. 09 3. 35 4. 08 4. 79 5. 30 4. 97 3. 18 3. 97 5. 16 5. 10 5. 86 4. 79 5. 34 4. 24 4. 32 4. 77 6. 36 6. 38 4. 88 5. 55 3. 04 4. 55 3. 35 4. 87 4. 17 5. 85 5. 16 5. 09 4. 52 4. 38 4. 31 4. 58 5. 72 6. 55 4. 76 4. 61 4. 17 4. 03 4. 47 3. 40 3. 91 2. 70 4. 60 4. 09 5. 96 5. 48 4. 40 4. 55 5. 38 3. 89 4. 60 4. 47 3. 64 4. 34 5. 18 6. 14 3. 24 4. 90 3. 05 建立数据文件(Frequcen2. sav),然后选用程序,本例分析的变量是x(总胆固醇值),程序
    中没有选择P2. 5 与P9 7. 5,不显示频数分布表。其余选择与例8-1 相同,得到如下结果和直方
    图(见图8-6)。
    88 第2 篇 统计分析
     
    Frequencies,频数分布分析
    图8-6 直方图
    Statistics 
    胆固醇(x, m m ol/ L) 
    N Valid 101 M issing 0 M ean 4. 7232 Std. Error of M ean . 08738 M edian 4. 6300a M ode 4. 79 Std. Deviation . 87820 Variance . 77124 Skew ness . 246 Std. Error of Skew ness . 240 Kurtosis . 024 Std. Error of K urtosis . 476 Range 4. 52 M inim u m 2. 70 M axim u m 7. 22 Su m 477. 04 Percentiles 10 3. 5360b 20 4. 0700 25 4. 1800 30 4. 3120 40 4. 4780 50 4. 6300 60 4. 8340 70 5. 1520 75 5. 2083 80 5. 3830 90 5. 9000 a. Calculated fro m grouped data 
    b. Percentiles are calculated from grouped data 
    第8 章 描述性统计分析89
     
    结果分析
    平均数( M ean) = 4. 7232。 标准误差(Std. Error) = 0. 08738 中位数( M edian,50 % ) = 4. 6300。众数( M ode) = 4. 79。
    标准差(Std. D eviation) = 0. 8782。方差( Variance) = 0. 77124。
    偏度系数(Ske w ness) = 0. 246。偏度系数标准误差(Std. Error of Ske w ness) = 0. 240。
    峰度系数( K urtosis) = 0. 024。峰度系数标准误差(Std. Error of K urtosis) = 0. 476。
    极差( R ange) = 4. 52。最小值( Minim u m ) = 2. 70。
    最大值( M axim u m ) = 7. 22。总和(Su m ) = 477. 04。
    本例还得到等距为10 的百分位: 
    P1 0 = 3. 5360 P2 0 = 4. 0700 P25 = 4. 1800 P30 = 4. 3120 P4 0 = 4. 4780 P5 0 = 4. 6300 P6 0 = 4. 8340 P7 0 = 5. 1520 P75 = 5. 2083 P80 = 5. 3830 P9 0 = 5. 9000 
    频数分布的特征:偏度系数( Skew ness) q1 = 0. 246, q1 > 0,表示正偏,即曲线向左偏;峰度
    系数( K urtosis), q2 = 0. 024, q2 > 0,表示平峭峰,即曲线较平坦。它们的值都较小。
    直方图( Histogra m )的频数分布特征表明:高峰在3. 75~5. 75 段, 两侧频数逐渐减小,且
    基本对称(见图8-6)。
    本例的均数X ( M ean) = 4. 7232 m m ol/ L。中位数( M edian, P5 0) = 4. 630 m m ol/ L。可见, X 
    ( M ean)≈ P5 0 。
    101 例30~49 岁男子血清总胆固醇值( m m ol/ L)的实际分布与理论分布比较如表8-3 所
    列。可见实际分布与理论分布基本一致。
    表8-3 胆固醇的实际分布与理论分布比较
    X ± S 
    胆固醇值范围
    / m m ol·L - 1 实际人数
    分布
    ( % ) 
    理论分布
    ( % ) 
    X±1 S 3. 8450~5. 6014 72 71. 29 68. 27 X±1. 96 S 3. 0019~6. 4444 97 96. 04 95. 00 X±2. 58 S 2. 4574~6. 9889 100 99. 01 99. 00 由以上分析可见,95 % 正常值范围估计是(3. 0019,6. 4445)( m m ol/ L)。
    实例 如测得某38 岁男子的血清胆固醇值是6. 993 ( m m ol/ L ),它超过(95 % )正常值的
    上限,偏高,估计属于不正常。
    8. 2 描述性分析
    描述性分析( Descriptives) 用以计算数值变量的统计量:均数( M ean),总和(Su m ),标准差
    (Std. D eviation),方差( V ariance),极差( Range),最小值( M inim u m ), 最大值( M axim u m ), 均
    数的标准误差(S. E. M ean)等,并可对数值变量标准化,然后储存在数据文件中。
    例8-3 某地区130 名正常成年男子红细胞数( R B C,万/ m m )如表8-4 所列。试作描述性
    分析。(王翔朴. 卫生学.第3 版,北京:人民卫生出版社,1990:248) 
    90 第2 篇 统计分析
     
    表8-4 正常成年男子红细胞数数据
    379 457 519 486 428 467 537 498 445 558 453 516 484 415 466 531 497 443 477 478 510 483 441 463 528 494 440 474 567 505 481 398 461 523 490 435 470 546 503 449 389 457 521 587 429 467 538 498 446 478 454 516 485 417 466 532 497 443 477 507 513 483 413 464 529 495 442 474 569 453 481 401 462 526 491 436 473 549 504 478 394 457 523 490 431 468 539 499 448 508 454 517 486 427 466 536 498 443 477 453 515 484 413 464 529 496 442 475 569 480 482 410 462 526 493 439 474 561 504 510 398 458 523 490 433 468 540 500 449 480 1) 建立数据文件descrip. sav。
    2) 选择【A nalyze】..【Descriptive Statistics】..【D escriptives】,得到如图8-7 所示对话框。
    描述性分析( Descriptives) 的变量( V ariable(s))是rbc(红细胞数)。
    3) 可以用Save standardized value as variables 选项对数值变量标准化( Z 分数变量),并储
    存在数据文件中。单击【O ptions】,得到如图8-8 所示对话框。
    图8-7 Descriptives(描述性分析)对话框图8-8 Descriptives: Options(选择项)对话框
    Descriptives: O ptions(选择项)对话框有如下选项。
    .. M ean,均数。.. Su m ,所有值的总和。.. Dispersion,离散趋势。☆ Std. Deviations,标准差。 ☆ M inim u m ,最小值。 
    ☆ V ariance,方差。 ☆ M axim u m ,最大值。 
    ☆ R ange,极差。 ☆ S. E. m ean,均数的标准误差。
    .. Distribution,分布分析。☆ K urtosis,峰度系数。 ☆ Ske w ness,偏度系数。
    .. Display Order,显示秩序。☆ V ariable list,按变量顺序列出。 
    ☆ Alphabetic,按字母表顺序列出。 
    ☆ Ascending means,按均数升幂列出。 
    ☆ Descending means,按均数降幂列出。
    第8 章 描述性统计分析91
     
    4) 单击【Continue】.. 【O K】,得到结果。 
    Descriptives 
    Descriptive Statistics 
    N Range Minim u m M axim u m Su m 
    Statistic Statistic Statistic Statistic Statistic 
    红细胞数( R B C) 
    V alid N (listwise) 
    130 130 
    209 379 588 62316 Descriptive Statistics 
    M ean Std. V ariance Statistic Std. Error Statistic Statistic 红细胞数( R B C) 479. 35 3. 64 41. 506 1722. 773 V alid N (listwise) 
    Descriptive Statistics 
    Ske w ness K urtosis 
    Statistic Std. Error Statistic Std. Error 红细胞数( R B C) . 011 . 212 -. 140 . 422 V alid N (listwise) 
    结果分析
    例数( N ) = 130。极差( Range) = 209。最小值( M inim u m ) = 379。最大值( M axim u m ) = 588。
    总和(Su m ) = 62316。均数( M ean) = 479. 35。
    均数标准误差(Std. Error) = 3. 64。标准差(Std) = 41. 51。
    方差( V ariance) = 1722. 773。偏度系数(Ske w ness) = 0. 011。
    偏度系数标准误差(Std. Error of Ske w ness) = 0. 212。峰度系数( K urtosis) = - 0. 140。
    峰度系数标准误差(Std. Error of K urtosis) = 0. 422。
    例8-4 已知抑郁症资料,并建立了数据cesd. sav,试做关于变量educ(教育程度)、inco me 
    (年收入)和age(年龄)的描述性分析。
    1) 调入数据文件cesd. sav。
    2) 仿照例8-1 的方法,在V ariable(s)中调入变量:educ,inco m e,age。其余选择与例8-1 相
    同。得到如表8-5 所示结果。
    表8-5 变量educ、inco me 和age 的描述性分析结果
    统计量教育程度(educ) 年收入(inco me) 年龄(age) 
    例数( N ) 294 294 294 极差( Range) 6 63 71 92 第2 篇 统计分析
     
    续表
    统计量教育程度(educ) 年收入(inco me) 年龄(age) 
    最小值( M inim u m ) 1 2 18 最大值( M axim u m ) 7 65 89 总和(Su m ) 1023 6049 13058 平均数( M ean) 3. 48 20. 57 44. 41 均数标准误差(Std. Error) 0. 0764 0. 89 1. 05 标准差(Std. Deviation) 1. 31 15. 29 18. 09 方差( V ariance) 1. 718 233. 788 327. 083 偏度系数(Skew ness) 0. 745 1. 223 0. 361 偏度系数标准误差(Std. Error of Skew ness) 0. 142 0. 142 0. 142 峰度系数( K urtosis) 0. 118 0. 956 - 0. 945 峰度系数标准误差(Std. Error of K urtosis) 0. 283 0. 283 0. 283 8. 3 探索性分析
    探索性分析( E xplore) 提供各种不同的统计量与描述作图, 它包括茎叶图( Ste m and 
    Leaf)、直方图( Histogra m )、正态Q-Q 图( N or m al Q-Q Plot)、箱形图( Boxplot)以及散点图。此
    外,还可以做K-S( Lilliefors) 与Shapiro- W ilk 正态性检验。
    例8-5 已调查97 名幼儿性别( x2 ),月龄( x3),体重( x4, kg),身高( x5 ,c m ), 坐高( x6, 
    c m ),胸围( x7,c m ),头围( x8 ,c m ),左眼视力( x9)与右眼视力( x1 0 )等生长发育数据,并已建立
    数据文件child. sav。试对身高( x5)关于因子变量性别( x2 )作探索性分析。
    1) 调入数据文件child. sav。
    2) 选择【A nalyze】..【Descriptive Statistics】..【E xplore】,得到如图8-9 所示对话框。
    图8-9 Explore(探索性分析)对话框
    探索性分析( Explore)的因变量( D ependent)是x5 ,一次可以分析一个或多个因变量,因子
    变量清单(Factor List)也可以分析一个或多个。本例是性别x2,还可以用变量的值作为观察
    值的标识( Label Cases by)。
    在图8-9 的Display(显示)中可以进行如下设置。 
    ☆ Both,显示统计量与图形,两者(Both)兼有,这是默认格式。 
    ☆ Statistics,只显示统计量。
    第8 章 描述性统计分析93
     
    ☆ Plots,只显示图形。
    3) 单击【Statistics】,得到如图8-10 所示对话框。E xplore: Statistics(检验的统计量)对话
    框有如下选项。
    .. Descriptives,描述性统计量及均数的可信区间( Confidence Interval for M ean)。.. M -estim ators,位置参数的稳健最大似然估计值。
    .. O utliers,显示五个最高( Highest)与最低( Lo w est)的观察值,并以极值( Extre m e V al- ues)标识,即所谓奇异值( O utliers)。
    .. Percentiles,百分位数,显示第5,10,25,50,75,90,与95 的百分位数。
    图8-10 Explore:Statistics(统计量)对话框图8-11 Explore:Plots(统计量)对话框
    4) 单击【Continue】..【Plots】,得到如图8-11 所示对话框。
    E xplore: Plots(作图)对话框有如下选项。
    .. Boxplots, 箱形图。☆ Factor Levels together,全部因子变量水平箱形图。 
    ☆ Dependents together,全部因变量箱形图。 
    ☆ N one,不显示箱形图。
    .. Descriptive,描述性图形。☆ Ste m-and-leaf,茎叶图。 
    ☆ Histogra m ,直方图。
    .. N or m ality plots with tests,带检验的正态图。
    .. Spread vs. Level with Levene Test,散布图与Levene 水准方差齐性检验对比。☆ N one,不显示散布水准图。 
    ☆ Po w er estim ation,功效估计。 
    ☆ Transfor m ed,转换。 
    ☆ Po w er,如果选用此项,用户应指明转换的幂次,可选幂次如下。N atural log,自然对数转换,默认格式。 
    1/ square root,对每一数据,计算其平方根的倒数。 
    Reciprocal,倒数转换。 
    Square root,平方根转换。 
    Square,平方转换。 
    Cubic,立方转换。
    94 第2 篇 统计分析
     
    ☆ U ntransform ed,不进行数据转换。
    5) 单击【Continue】..【O ptions】,得到如图8-12 所示对话框。
    图8-12 Explore: Options(选择项)对话框
    6) 单击【Continue】..【O K】,得到结果。 
    Explore 
    探索性分析
    性别(x2) 
    个案处理综合分析
    Case Processing Su m m ary 
    性别(x2) Cases 
    Valid M issing Total 
    N Percent N Percent N Percent 
    身高(x5,c m ) 1-男2-女
    50 46 
    100. 0 % 100. 0 % 0 0 
    . 0 % . 0 % 50 46 
    100. 0 % 100. 0 % 百分位数
    Percentiles 
    性别(x2) Percentiles 
    5 10 25 W eighted 身高(x5,c m ) A verage( Definition 1) 
    1-男2-女
    100. 320 99. 980 101. 850 101. 580 105. 550 106. 500 T ukey’s Hinges 身高(x5,c m ) 1-男2-女
    105. 700 106. 800 百分位数(续) 
    Percentiles 
    M ethods 
    D ependent 
    Variables 
    性别(x2) Percentiles 
    50 75 90 95 W eighted 
    A verage (D efinition 1) 身高(x5,c m ) 1-男2-女
    109. 100 109. 450 113. 400 113. 925 120. 270 118. 920 120. 635 120. 000 T ukey’s Hinges 
    身高(x5,c m ) 1-男2-女
    109. 100 109. 450 113. 200 113. 800 第8 章 描述性统计分析95
     
    Descriptives 
    性别(x2) Statistic Std. Error 身高(x5,c m ) 1-男M ean 109. 886 . 8759 95 % Confidence Lo w er Bound 108. 126 Interval for M ean U pper Bound 111. 646 5 % Trim m ed M ean 109. 731 M edian 109. 100 Variance 38. 363 Std. D eviation 6. 1938 Minim u m 100. 0 M axim u m 125. 0 R ange 25. 0 Interquartile R ange 7. 850 Skew ness . 501 . 337 K urtosis -. 397 . 662 2-女M ean 109. 896 . 8508 95 % Confidence Lo w er Bound 108. 182 Interval for M ean U pper Bound 111. 609 5 % Trim m ed M ean 109. 849 M edian 109. 450 Variance 33. 300 Std. D eviation 5. 7706 Minim u m 99. 3 M axim u m 122. 3 R ange 23. 0 Interquartile R ange 7. 425 Skew ness . 146 . 350 K urtosis -. 448 . 688 Ste m-and-Leaf Plots,茎-叶图
    身高(x5,cm ) Ste m-and-Leaf Plot for, 身高(1-男)的茎叶图
    X2 = 1-男 
    频数 茎 叶Frequency Stem & Leaf 
    10. 00 10 . 0000133334 
    20. 00 10 . 55555666788888999999 
    9. 00 11 . 000112234 
    6. 00 11 . 667899 
    96 第2 篇 统计分析
     
    4. 00 12 . 0000 
    1. 00 E xtre m es ( > = 125) 
    Ste m width: 10. 0 
    Each leaf: 1 case(s)(每一个个案是一叶)。
    身高(x5,cm ) Ste m-and-Leaf Plot for,身高(2-女)的茎叶图
    X2 = 2-女 
    频数 茎 叶Frequency Stem & Leaf 
    2. 00 9 . 99 
    6. 00 10 . 002224 
    19. 00 10 . 5556677788999999999 
    9. 00 11 . 000222334 
    7. 00 11 . 5556789 
    3. 00 12 . 002 
    Ste m width: 10. 0 
    Each leaf: 1 case(s) 
    结果分析
    (1) 描述性统计分析( Descriptives)结果
    统计量(Statistics) 身高(x5,c m ) 
    1 - 男2 - 女平均数( M ean) 109. 886 109. 896 均数的标准误差( Std. Error) 0. 876 0. 851 均数的95 % 可信区间(108. 126,111. 646) (108. 182,111. 609) (95 % Confidence Interval for m ean) 5 % 调整均数(5 % Trim m ed M ean) 109. 731 109. 849 中位数( M edian) 109. 100 109. 450 方差( V ariance) 38. 363 33. 300 标准差( Std. Deviation) 6. 194 5. 771 最小值( M inim u m ) 100. 0 99. 3 最大值( M axim u m ) 125. 0 122. 3 第8 章 描述性统计分析97
     
    极差( Range) 25. 0 23. 0 四分位数间距7. 850 7. 425 (Interquartile Range) 
    偏度系数( Skew ness) 0. 510 0. 146 偏度系数标准误差( Std. Error) 0. 337 0. 350 峰度系数( K urtosis) - 0. 397 - 0. 448 峰度系数标准差( Std. Error) 0. 662 0. 688 (2) 百分位数( Percentiles)(见表8-6) 
    表8-6 百分位数统计结果
    1 - 男2 - 女百分位数
    W eighted A verage 
    ( Definition 1) T ukey’s Hinges 
    W eighted Average 
    (D efinition 1) Tukey’s Hinges 
    P5 100. 320 99. 980 P10 101. 850 101. 580 P25 105. 550 105. 700 106. 500 106. 800 P50 109. 100 109. 100 109. 450 109. 450 P75 113. 400 113. 200 113. 925 113. 800 P90 120. 270 118. 920 P95 120. 635 120. 000 8. 4 列联表分析
    列联表分析( Crosstabs, Cross-tabulation,交叉分组列表),又称多维频数分布表,它能对数
    值变量与字符串变量产生一个二维到n 维的列联表以及相应的统计量,即百分比( % )、期望
    值( E xpected)、残差( Residual)、χ2 
    值以及Sig. 值(单侧或双侧)等。
    图8-13 数据文件crosst1. sav 
    8. 4. 1 两样本率的比较
    例8-6 某防疫站观察当地的一个污水排放口,在高温季节和低温季节中水样的伤寒菌
    检出情况(各12 次)。高温季节或低温季节,以degree 表示:1 是高温季节(high),2 是低温季
    节(lo w )。水样的检出情况以test 表示:1 是阳性水样(positive),2 是阴性水样(negative)。数
    据资料如图8-13 所示。问两个季节污水的伤寒菌检出率有无差别? (杨树勤.卫生统计学.第
    2 版,北京:人民卫生出版社,1986:90) 
    98 第2 篇 统计分析
     
    第 
    8章描述性统计分析99
    
    1)建立数据文件.. crosst1.sav。
    2)选择【Analyze】..【DescriptiveStatistics】..【Crosstabs】,得到如图8-14所示对话框。
    图.. 8-14Crosstabs(列联表分析)对话框图.. 8 -15Exact Tests(精确检验)对话框
    
    引入行(Row(s))变量是.. degree。引入列(Column(s))变量是test。没有引入布局(Layer)。
    在图8-14所示对话框中单击【Exact】得到如图8-15所示对话框。Exact Tests(精确检验)
    
    对话框有如下选项(见图.. 8-15)。
    .... Asymptoticonly,仅进行渐近方法,默认格式,本例选择此项。
    .... Monto Carlo,蒙特卡罗方法。.. 
    
    ☆Confidencelevel,可信水平。 
    ☆Numberofsamples,样本数。
    .... Exact,精确值。 
    ☆Timelimitpertest5 Minutes,每一个检验时间为5min,默认格式。
    
    
    3)单击【Statistics】,得到如图8-16所示对话框。
    图.. 8-16Crosstabs:Statistics(统计量)对话框
    
    Crosstabs:Statistics(统计量)对话框有如下选项。.. 
    .... Chi-square,χ2
    值,显示PearsonChi-square值。对于四格表,当期望值小于5时,将做.. 
    Fisher精确检验(Fisher’sExact Test)。
    .... Correlations,显示Pearson与Spearman相关系数。
    .... Nominal,名义数据。.. 
    ☆Contingency Coefficient,列联系数。.. 
    
     
    100第2篇统计分析
    
    ☆.. Phiand Cramer’s V,φ与克莱姆.. V值。 
    ☆Lambda,λ统计量。 
    ☆Uncertaintycoefficient,不确定系数。
    
    
    .... Ordinal,有序数据。.. 
    ☆Gamma,γ统计量。.. 
    ☆Somers’d,萨默尔.. d统计量。.. 
    ☆.. Kendall’stau-b,τb统计量。.. 
    ☆.. Kendall’stau-c,τc统计量。
    
    .... NominalbyInterval,名义尺度统计量。.. 
    
    ☆Eta,η统计量。
    .... Kappa,κ系数。
    .... Risk,相对危险度。
    .... McNemar,麦克尼马尔检验。.. 
    .... Cochran’sand Mantel-Haenszelstatistics,科克伦与曼替尔.. -麦斯尔统计量。
    .... Testcommonoddsratioequals,检验的公共比数比,默认是1。
    
    4)单击【Continue】..【Cells】,得到如图.. 8-17所示对话框。
    图8-17Crosstabs:Cel
    llDisplay(单元显示)对话框
    
    Cell Display(列联表单元显示)对话框有如下选项。
    
    .... Counts,计数。.. 
    ☆Observed,观测频数,即实际数(默认格式)。.. 
    ☆Expected,期望频数,即期望值。
    
    .... Percentages,百分数。.. 
    ☆Row,行百分数。.. 
    ☆Column,列百分数。.. 
    ☆Total,总百分数。
    
    .... Residuals,残差。.. 
    ☆Unstandardized,未标准化残差,即观测频数与期望频数的差。.. 
    ☆Standardized,标准化残差。.. 
    ☆Adj.Standardized,调整标准化残差。
    
    5)单击【Continue】..【Format】,得到如图8-18所示对话框。.. 
     
    图8-18 Crosstabs: Table Form at(表的输出格式)对话框 
    列联表输出格式( T able For m at)如下。
    .. R o w O rder,行的顺序。☆ Ascending,升序排序,将行变量值从小到大显示,此为默认格式。 
    ☆ Descending,降序排序,将行变量值从大到小显示。
    6) 单击【Continue】..【O K】,得到运行结果。 
    Crosstabs,列联表分析
    Case Processing Su m m ary 
    Cases 
    Valid Missing T otal 
    N Percent N Percent N Percent 
    高/ 低温季节* 
    阳/ 阴性水样
    24 100. 0 % 0 . 0 % 24 100. 0 % 列联表 
    高/ 低温季节* 阳/ 阴性水样Crosstabulation 
    阳/ 阴性水样
    阳性阴性
    T otal 
    高/ 低温季节
    高温Count 1 11 12 Expected Count 4. 0 8. 0 12. 0 % within 高/ 低温季节8. 3 % 91. 7 % 100. 0 % % within 阳/ 阴性水样12. 5 % 68. 8 % 50. 0 % % of Total 4. 2 % 45. 8 % 50. 0 % Residual - 3. 0 3. 0 Std. Residual - 1. 5 1. 1 A djusted Residual - 2. 6 2. 6 低温Count 7 5 12 Expected Count 4. 0 8. 0 12. 0 % within 高/ 低温季节58. 3 % 41. 7 % 100. 0 % % within 阳/ 阴性水样87. 5 % 31. 3 % 50. 0 % % of Total 29. 2 % 20. 8 % 50. 0 % Residual 3. 0 - 3. 0 Std. Residual 1. 5 - 1. 1 A djusted Residual 2. 6 - 2. 6 T otal Count 8 16 24 Expected Count 8. 0 16. 0 24. 0 % within 高/ 低温季节33. 3 % 66. 7 % 100. 0 % % within 阳/ 阴性水样100. 0 % 100. 0 % 100. 0 % % of Total 33. 3 % 66. 7 % 100. 0 % 第8 章 描述性统计分析101
     
    χ2 检验
    Chi-Square Tests 
    V alue df 
    Asy m p. Sig. (2-sided) 
    Exact Sig. (2-sided) 
    Exact Sig. (1-sided) 
    Pearson C hi-Square 6. 750b 1 . 009 Continuity Correction 4. 688 1 . 030 Likelihood Ratio 7. 368 1 . 007 Fisher’s Exact Test . 027 . 014 Linear-by-Linear 
    Association 6. 469 1 . 011 M cN e mar T est . 481c N of V alid Cases 24 a. Co m puted only for a 2 ×2 table 
    b. 2 cells (50. 0 % ) have expected count less than 5. T he minim u m expected count is 4. 00 c. Binomial distribution used 
    指示测度
    Directional M easures 
    V alue 
    Asy m p. Std. Errora 
    No minal by N o minal La m bda Sy m m etric . 400 . 234 高/ 低温季节Dependent . 500 . 167 阳/ 阴性水样Dependent . 250 . 375 Good man and Kruskal tau 高/ 低温季节Dependent . 281 . 165 阳/ 阴性水样Dependent . 281 . 168 U ncertainty Coefficient Sy m m etric . 231 . 148 高/ 低温季节Dependent . 221 . 144 阳/ 阴性水样Dependent . 241 . 153 Ordinal by O rdinal So m ers’d Sy m m etric -. 529 . 160 高/ 低温季节Dependent -. 563 . 165 阳/ 阴性水样Dependent -. 500 . 163 No minal by Interval Eta 高/ 低温季节Dependent . 530 阳/ 阴性水样Dependent . 530 a. N ot assu ming the null hypothesis 
    指示测度(续) 
    Directional M easures 
    Statistics Direction 
    Values 
    A pprox. Tb A pprox. Sig. No minal by N o minal Lam bda Sy m m etric 1. 429 . 153 高/ 低温季节Dependent 2. 353 . 019 阳/ 阴性水样Dependent . 581 . 561 G ood m an and Kruskal tau 高/ 低温季节Dependent . 011c 阳/ 阴性水样Dependent . 011c U ncertainty Coefficient Sy m m etric 1. 534 . 007d 高/ 低温季节Dependent 1. 534 . 007 d 
    阳/ 阴性水样Dependent 1. 534 . 007d Ordinal by O rdinal So mers’d Sy m m etric - 3. 065 . 002 高/ 低温季节Dependent - 3. 065 . 002 阳/ 阴性水样Dependent - 3. 065 . 002 b. U sing the asy m ptotic standard error assu ming the m ull hypothesis 
    c. Based on chi-square approxim ation 
    d. Likelihood ratio chi-square probability 
    102 第2 篇 统计分析
     
    对称测度
    Sy m m etric M easures 
    Value 
    Asy m p. Std. Errora 
    A pprox. T b A pprox. Sig. No minal by N o minal P hi -. 530 0. 009 Cram er’s V . 530 . 009 Contingency Coefficient . 469 . 009 Ordinal by O rdinal K endall’s tau-b -. 530 . 160 - 3. 065 . 002 K endall’s tau-c -. 500 . 163 - 3. 065 . 002 Ga m ma -. 878 . 137 - 3. 065 . 002 Spear man Correlation -. 530 . 160 - 2. 934 . 008c Interval by Interval Pearson’s R -. 530 . 160 - 2. 934 . 008c M easure of Agree m ent K appa -. 500 . 167 - 2. 598 . 009 N of V alid Cases 24 a. N ot assu ming the null hypothesis 
    b. U sing the asy m ptotic standard error assu ming the null hypothesis 
    c. Based on norm al approxim ation 
    危险度估计
    Risk Estim ate 
    V alue 
    95 % Confidence Interval Lo wer U pper 
    O dds Ratio for 高/ 低温季节(高温/ 低温) . 065 . 006 . 679 For cohort 阳/ 阴性水样= 阳性. 143 . 021 . 991 For cohort 阳/ 阴性水样= 阴性2. 200 1. 103 4. 390 N of V alid Cases 24 比数比齐性检验
    Tests for Ho m ogeneity of the Odds Ratio 
    Statistics 
    C hi-Squared 
    df 
    Asy m p. Sig. (2-sided) 
    Conditional C ochran’s 6. 750 1 . 009 Independence M antel- Haenszel 4. 492 1 . 034 Ho m ogeneity Breslo w-D ay . 000 0 . Tarone’s . 000 0 . U nder the conditionalindependence assu m ption, Cochran’s statistic is asy m ptotically distributed as a 1 df chi-squared 
    distribution, only if the nu m ber of strata is fixed, w hile the M antel- Haenszelstatistic is always asy m ptotically distributed 
    as a 1 df chi-squared distribution. N ote that the continuity correction is rem oved fro m the M antel-Haenszel statistic 
    w hen the su m of the differences betw een the observed and the expected is 0 
    第8 章 描述性统计分析103
     
    曼特尔-亨塞尔公共比数比估计
    M antel- Haenszel Com m on O dds R atio Estimate 
    Estimate . 065 In( Estim ate) - 2. 734 Std. Error of In (Estim ate) 1. 197 Asy m p. Sig. (2 - sided) . 022 Asy m p. 95 % C onfidence Co m m on O dds Lo w er Bound . 006 Interval Ratio U pper Bound . 679 In(Co m mon Odds Ratio) Lo w er Bound - 5. 081 U pper Bound -. 388 T he M antel- Haenszel co m m on odds ratio estimate is asy m ptotically norm ally distributed under the co m m on odds ratio of 
    1. 000 assu m ption. So is the natural log of the estim ate 
    主要结果分析
    (1) 高温季节中水样的伤寒菌检出率是8. 3 % ,而低温季节中水样的伤寒菌检出率为58. 3 % 。
    (2) 本例四格表中有两个期望值( E xpected C ount,理论数)小于5,而总例数(24)小于40, 
    所以Crosstabs 会自动进行Fisher 精确概率检验( Fisher’s E xact Test),结果: 
    单侧( Exact Sig. 1-sided) = 0. 014 
    双侧( Exact Sig. 2-sided) = 0. 027 
    由于P < 0. 05,差异有显著性,可以认为低温季节中水样的伤寒菌检出率高。
    (3) 高温季节组对低温季节组的相对危险度( Risk Estim ate, O dds for D E G R E E (1/ 2) )为
    0. 065,即低温季节组中水样的伤寒菌检出率的相对危险度高于高温季节组的15. 4 (1/ 0. 065 
    ≈15. 4)倍。
    8. 4. 2 R ×2 列联表的χ2 
    检验(多个计数资料比较) 
    例8-7 用免疫酶法观察鼻咽癌患者、其他头颈部恶性肿瘤患者及正常成年人血清中的
    E B 病毒壳抗原的免疫球蛋白A( V C A-IgA)抗体的反应情况(见表8-7),问三组阳性率有无差别(本
    例是计数资料多个阳性率比较,目的在于推断它们各自代表的总体率是否相等,可以用R×2 列联
    表的χ2 
    检验)。(杨树勤. 医学百科全书/ 医学统计学.上海:上海科学技术出版社,1985:99) 
    表8-7 三组人群中的E B 病毒V C A-lgA 抗体阳性率
    分 组阳性例数阴性例数
    鼻咽癌患者188 16 其他头颈部恶性肿瘤患者10 23 正常成年人49 333 1) 建立数据文件crosst2. sav(见图8-19)。
    图8-19 数据文件crosst2. sav 
    104 第2 篇 统计分析
     
    2) 对计数( Count)进行加权, 选用【D ata】..【W eight Cases】..【W eight cases by 】..【Frequency 
    V ariable】。Count,即加权变量是Count。单击【O K】。
    3) 选择【A nalyze】..【Descriptive Statistics】..【Crosstabs】。在Crosstabs 主对话框中,引入
    的行( Ro w (s))变量是group。引入的列( Colu m n(s))变量是status。并选择Display clustered 
    bar charts(显示整群条形图)。单击【Statistics】。
    4) 在Statistics(统计量) 对话框中, 选择C hi-square 与Correlations。单击【Continue】.. 
    【Cells】。
    5) 在Crosstabs cell Display(列联表单元显示)对话框的Counts 中,选择O bserved 与E xpected
    。而在Percentages 中,选择Ro w , Colu m n, T otal。单击【Continue】..【O K】。
    6) 得到如下运行结果。 
    Crosstabs,列联表
    个案处理综合分析
    Case Processing Su m m ary 
    Cases 
    Valid Missing T otal 
    N Percent N Percent N Percent 
    分组(group) * 
    状况(status) 
    619 100. 0 % 0 . 0 % 619 100. 0 % 列联表
    分组(group) * 状况(status) Crosstabulation 
    状况(status) 
    1-阳性2-阴性T otal 
    分组
    (group) 
    1-鼻咽癌患者Count 188 16 204 Expected Count 81. 4 122. 6 204. 0 % within 分组(group) 92. 2 % 7. 8 100. 0 % % within 状况(status) 76. 1 % 4. 3 % 33. 0 % % of Total 30. 4 % 2. 6 % 33. 0 % 2-头颈部其他Count 10 23 33 恶性肿瘤患者Expected Count 13. 2 19. 8 33. 0 % within 分组(group) 30. 3 % 69. 7 % 100 % % within 状况(status) 4. 0 % 6. 2 % 5. 3 % % of Total 1. 6 % 3. 7 % 5. 3 % 3-正常成年人Count 49 333 382 Expected Count 152. 4 229. 6 382. 0 % within 分组(group) 12. 8 % 87. 2 % 100. 0 % % within 状况(status) 19. 8 % 89. 5 % 61. 7 % % of Total 7. 9 % 53. 8 % 61. 7 % T otal Count 247 372 619 Expected Count 247. 0 372. 0 619. 0 % within 分组(group) 39. 9 % 60. 1 % 100. 0 % % within 状况(status) 100. 0 % 100. 0 % 100. 0 % % of Total 39. 9 % 60. 1 % 100. 0 % 第8 章 描述性统计分析105
     
    χ2 检验
    Chi-Square Tests 
    V alue df Asy m p. Sig. (2-sided) Pearson C hi-Square 350. 326a 2 . 000 Likelihood Ratio 387. 366 2 . 000 Linear-by-Linear 
    Association 343. 391 1 . 000 N of V alid Cases 619 a. 0 cells (. 0 % ) have expected count less than 5. T he minim u m expected count is 13. 17 对称测度
    Sy m m etric M easures 
    Value 
    Asy m p. Std. Errora 
    A pprox. T b 
    Approx. Sig. Interval by Interval Pearson’s R . 745 . 026 27. 777 . 000c Ordinal by O rdinal Spearm an Correlation . 737 . 027 27. 101 . 000 c 
    N of V alid Cases 619 a. N ot assu ming the null hypothesis 
    b. U sing the asy m ptotic standard error assu ming the null hypothesis 
    c. Based on norm al approxim ation 
    结果分析
    (1) χ2 
    检验( Pearson C hi-Square )的值,χ2 
    = 350. 326, P < 0. 01,按α= 0. 05 水准拒绝H0, 
    说明三组人群中的V C A-Ig A 抗体阳性率有显著性差别。
    似然比检验( Likelihood Ratio)的值= 387. 366, P < 0. 01,结论与χ2 
    检验一致。
    (2) 三组人群中的E B 病毒V C A-Ig A 抗体阳性率:鼻咽癌患者的阳性率是92. 2 % ,头颈
    部其他恶性肿瘤患者的阳性率是30. 3 % ,正常成年人的阳性率是12. 8 % 。
    (3) 用免疫酶法观察鼻咽癌患者、头颈部其他恶性肿瘤患者及正常成年人血清中的E B 病
    毒壳抗原的免疫球蛋白A( V C A-Ig A)抗体的反应情况与阳性率的相关系数如下。 
    Pearson’s R = 0. 745 P( A pprox. Sig. = 0. 000) < 0. 01 Spearm an Correlation = 0. 737 P( A pprox. Sig. = 0. 000) < 0. 01 
    8. 5 比率统计分析
    比率( Ratio),又称率,或频率。比率统计分析(Ratio Statistics)能对连续变量的比率进行多种统
    106 第2 篇 统计分析
     
    计学分析。产生的统计量有:比率中位数( M edian),比率均数( M ean),比率平均绝对偏差( A A D),比
    率离差系数(C O D),价格相对微分(差别)(P R D),中位中心变异系数( Median centered C O V),平均中
    心变异系数( M ean centered C O V),比率标准差(Standard Deviation)与比率全距( Range)等。
    例8-8 已知96 个(已删除一例缺失值) 被调查幼儿的体检资料并已建数据文件
    child. sav。试按年龄(age)对坐高( x6,c m )与身高( x5,cm )做比率统计分析。
    1) 调入数据文件child. sav。
    2) 选择【A nalyze】..【Descriptive Statistics】..【R atio】,得到如图8-20 所示对话框。
    图8-20 Ratio Statistics(比率统计分析)对话框
    Ratio Statistics(比率统计分析)对话框有如下选项。
    .. N u m erator, 比率的分子(变量),本例引入坐高( x6)。
    .. Deno minator, 比率的分母(变量),本例引入身高( x5 )。
    .. Group V ariable, 分组变量,本例引入年龄(age)。
    .. Sort by group variable, 按分组变量排序。☆ Ascending order, 升幂次序,默认格式。 
    ☆ Descending order, 降幂次序。
    .. Display results, 默认格式,显示结果。
    .. Save results to external file, 保存结果为外部文件。☆ File , 指定外部文件名与路径。
    .. Statistics, 统计量。
    3) 单击【Statistics】,得到图如8-21 所示对话框,其选项如下。
    .. Central Tendency, 中心趋势。☆ M edian, 比率中位数。 
    ☆ M ean, 比率平均数。 
    ☆ W eighted m ean, 加权比率平均数,即分子比率平均数除以分母比率平均数。 
    ☆ Confidence intervals, 比率可信区间,默认是95 % 。
    .. Dispersion, 离散趋势。☆ A A D, 比率平均绝对偏差( A verage A bsolute D eviation)。 
    ☆ C O D, 比率离散系数( Coefficient of Dispersion)。 
    ☆ P R D, 价格相对微分(差别)( Price-Related Differential)。 
    ☆ Median centered C O V,中位中心变异系数( M edian-Centered Coefficient of Variation)。第8 章 描述性统计分析107
     
    图8-21 R atio Statistics:Statistics(统计量)对话框 
    ☆ Mean centered C O V, 平均中心变异系数( M ean-Centered Coefficient of Variation)。☆ Standard deviation, 比率标准差。 
    ☆ R ange, 比率全距。 
    ☆ Minim u m , 比率最小值。 
    ☆ M axim u m , 比率最大值。
    .. Concentration Index, 集中指数。☆ R atios Betw een,比率间。 
    ☆ Lo w Proportion, 低比率。 
    ☆ High Proportion, 高比率。 
    ☆ A dd,加入。 
    ☆ Change,改变。 
    ☆ Re m ove,移动。 
    ☆ R atios W ithin, 比率内。% of median,中位百分数。 
    A dd,加入。 
    Change,改变。 
    Re m ove,移动。
    本例的选项,如图8-18 所示。
    4) 单击【Continue】..【O K】,得到结果。 
    Ratio Statistics,比率统计分析
    Case Processing Su m m ary
    Count Percent 
    年龄(age) 5(周岁) 17 17. 7 % 6(周岁) 51 53. 1 % 7(周岁) 28 29. 2 % O verall 96 100. 0 % Excluded 0 T otal 96 108 第2 篇 统计分析
     
    Ratio Statistics for 坐高(x6,cm )/ 身高(x5,c m) 
    Group M ean 
    95 % Confidence Interval for M ean Lo wer Bound U pper Bound 
    M edian 
    5(周岁) . 570 . 563 . 578 . 569 6(周岁) . 564 . 562 . 567 . 564 7(周岁) . 559 . 554 . 564 . 557 Overall . 564 . 561 . 566 . 563 Ratio Statistics for 坐高(x6,cm )/ 身高(x5,c m) 
    Group 
    95 % Confidence Interval for M edian Lo wer Bound U pper Bound Actual Coverage 
    W eighted M ean 
    5(周岁) . 560 . 575 95. 1 % . 570 6(周岁) . 560 . 568 95. 1 % . 564 7(周岁) . 551 . 569 96. 4 % . 559 O verall . 559 . 568 96. 8 % . 563 Ratio Statistics for 坐高(x6,cm )/ 身高(x5,c m) 
    Group 
    95 % Confidence Intervalfor W eighted M ean Lo wer Bound U pper Bound 
    M inim u m M axim u m Std. Deviation 5(周岁) . 563 . 577 . 554 . 613 . 015 6(周岁) . 561 . 567 . 544 . 582 . 009 7(周岁) . 554 . 563 . 540 . 583 . 012 O verall . 561 . 566 . 540 . 613 . 012 Ratio Statistics for 坐高(x6,cm )/ 身高(x5,c m) 
    Group R ange 
    Average 
    A bsolute 
    Deviation 
    Price Related 
    Differential 
    C oefficient of 
    Dispersion 
    Coefficient of Variation 
    M ean Centered 
    M edian 
    Centered 
    5(周岁) . 058 . 010 1. 000 . 017 2. 6 % 2. 6 % 6(周岁) . 037 . 008 1. 000 . 014 1. 7 % 1. 7 % 7(周岁) . 043 . 010 1. 000 . 018 2. 2 % 2. 2 % Overall . 073 . 009 1. 000 . 017 2. 1 % 2. 1 % T he confidence intervalfor the m edian is constructed without any distribution assu m p. T he actual coverage level may be greater 
    than the specified level. Other confidence i are constructed by assu ming a Nor mal distribution for the ratios 
    主要结果分析
    (1) 个案处理综合分析( Case Processing Su m m ary)表示各年龄组的例数与百分比。
    (2) 本例比率(坐高/ 身高)均数表明:7 岁年龄组最小(0. 559), 5 岁年龄组最大(0. 570), 
    其比率中位数( M edian)也表明7 岁年龄组最小(0. 557),而5 岁年龄组最大(0. 569)。
    (3) 由中位中心变异系数( M edian-Centered Coefficient Of V ariation),或平均中心变异系
    数( M ean-Centered Coefficient Of V ariation)来看,6 岁年龄组最小,它们都是1. 7 % 。5 岁年龄
    组与7 岁年龄组分别是2. 6 % 和2. 2 % 。
    第8 章 描述性统计分析109
     
    第 
    9章均数比较分析
    
    
    均数比较分析(Compare Means)可以按某数值或定性变量分组,求出各组的统计量。在统计
    分析采用抽样方法时,会使样本统计量与总体参数间存在差异,均数比较分析可以推断样本均数
    间或样本均数与总体均数间的差异是否具有显著性意义。均数比较分析有平均数分析( Means),
    单样本t检验(One-SampleT Test),独立样本t检验(Independent-SamplesT Test),配对样本t检
    验(Paired-SamplesT Test)与单因素方差分析(One -WayANOVA)。.. 
    
    9.1平均数分析
    平均数分析( Means)用以描述计量资料,当观察值按某一个分类变量分组时,平均数分析
    可以进行分组计算。输出结果有:均数(Mean),标准差(Standard Deviation),方差(Variance),
    总和(Sum)和样本例数(Number of Cases)等。它能按某数值或定性变量分组,求出各组的统
    计量,进行单因素方差分析和线性检验。
    
    例9 
    -1已知97个被调查幼儿的体检资料并建立了.. child.sav数据文件。试按性别(x 2)
    对身高( x 5,cm)与体重(x 4,kg)做平均数分析。
    
    1)将数据文件.. child.sav调入。
    2)选择【Analyze】..【Compare Means】..【Means】,得到如图9-1所示对话框。
    图9 -1Means(平均数分析)对话框
    
    平均数分析(Means)的因变量(DependentList)可以是一个或多个数值变量,本例是.. x 4和.. 
    x5。自变量(Independent)可以是一个或多个数值或字符串变量,本例是.. x 2。用户可以指定额
    外自变量层(Layer),每一层再细分样本。本例未选择。
    
    3)单击【Options】,得到如图9-2所示对话框。
    在.. MeansStatistics(备选统计量)对话框中有如下设置。
    .... Mean,均数。.... Number of Cases,例数.. (N)。
    .... Standard Deviation,标准差。.... Median,中位数。
    .... Grouped Median,分组中位数。.... Std. Error of Mean,均数标准误差。
    
     
    .. Su m,总和。.. Minim u m ,最小值。
    .. M axim u m ,最大值。.. R ange,极差。
    .. First,第一例。.. Last,最后一例。
    .. V ariance,方差。.. K urtosis,峰度系数。
    .. Std. Error of K urtosis,峰度系数的标准误差。.. Ske w ness,偏度系数。
    .. Std. Error of Ske w ness,偏度系数的标准误差。.. Har m onic M ean,调和均数。
    .. G eo metric M ean,几何均数。
    .. Percent of Total Su m ,总和的百分比。
    .. Percent of Total N ,总例数的百分比。
    图9-2 M eans O ptions(选择项)对话框
    本例将以上所有的统计量(Statistics)选入单元格统计量( Cell Statistics)中。对于以第一
    个层中的自变量类别为基础的子群组而言, 用户还可以选择如下统计量( Statistics for First 
    Layer)。
    .. A nova table and eta,单因素方差分析表与eta(η)值。
    .. Test for linearity,线性检验。
    4) 单击【Continue】..【O K】,得到运行结果。 
    M eans,平均数分析
    Gase Processing Su m m ary 
    T able 
    Cases 
    Included E xcluded Total 
    Statistics Statistics Statistics 
    N Percent N Percent N Percent 
    体重(x4,kg) * 性别(x2) 96 99.0 % 1 1.0 % 97 100.0 % 身高(x5,cm ) * 性别(x2) 96 99.0 % 1 1.0 % 97 100.0 % 第9 章 均数比较分析111
     
    统计报表
    Report 
    性别(x2) 体重(x4, kg) 身高(x5,cm ) 1-男M ean 18.192 109.886 N 50 50 Std. D eviation 2.7970 6.1938 M edian 17.500 109.100 Grouped M edian 17.550 109.100 Std. Error of M ean .3956 .8759 Su m 909.6 5494.3 Minim u m 13.0 100.0 M axim u m 25.6 125.0 Range 12.6 25.0 First 18.0 110.6 Last 25.6 120.8 V ariance 7.823 38.363 K urtosis .474 - .397 Std. Error of K urtosis .662 .662 Skew ness .822 .510 Std/ Error of Skew ness .337 .337 H arm onic M ean 17.803 109.552 Geo m etric M ean 17.993 109.718 % of T otal Su m 51.9 % 52.1 % % of T otal N 52.1 % 52.1 % 2-女M ean 18.631 109.896 N 46 46 Std. D eviation 3.2541 5.7706 M edian 17.750 109.450 Grouped M edian 17.750 109.433 Std. Error of M ean .4798 .8508 Su m 844.6 5055.2 Minim u m 13.6 99.3 M axim u m 30.0 122.3 Range 16.4 23.0 First 16.3 106.8 Last 16.1 102.0 V ariance 10.589 33.300 K urtosis 2.538 - .448 Std. Error of K urtosis .688 .688 Skew ness 1.322 .146 Std. Error of Skew ness .350 .350 H arm onic M ean 17.875 109.600 Geo m etric M ean 18.106 109.748 % of T otal Su m 48.1 % 47.9 % % of T otal N 47.9 % 47.9 % 112 第2 篇 统计分析
     
    Report 
    性别(x2) 体重(x4, kg) 身高(x5,cm ) Total M ean 18.273 109.891 N 96 96 Std. D eviation 3.0097 5.9633 M edian 17.650 109.250 Grouped M edian 17.633 109.267 Std. Error of M ean .3072 .6086 Su m 1754.2 10549.5 Minim u m 13.0 99.3 M axim u m 30.0 125.0 Range 17.0 25.7 First 18.0 110.6 Last 16.1 102.0 V ariance 9.058 35.561 K urtosis 1.763 - .446 Std. Error of K urtosis .488 .488 Skew ness 1.120 .350 Std. Error of Skew ness .246 .246 H arm onic M ean 17.837 109.575 Geo m etric M ean 18.047 109.732 % of T otal Su m 100.0 % 100.0 % % of T otal N 100.0 % 100.0 % 方差分析表
    A N O V A Tablea, b 
    Su m of 
    Squares df 
    M ean 
    Square 
    体重(x4,kg) * 性别(x2) Between Groups (Co m bined) .683 1 .683 W ithin Groups 859.846 94 9.147 T otal 860.530 95 身高(x5,cm ) * 性别(x2) Between Groups (Co m bined) .002 1 .002 W ithin Groups 3378.279 94 35.939 T otal 3378.282 95 a. With few er than three groups,linearity m easures for 体重(x4, kg)*性别(x2) cannot be co m puted b. W ith few er than three groups,linearity m easures for 身高(x5,c m)* 性别(x2) cannot be co m puted 
    方差分析表
    A N O V A Tablea, b 
    Dependent V ariable * 
    Independent V ariable Source 
    Statistics 
    F Sig. 
    体重(x4,kg)*性别(x2) Betw een G roups ( Co m bined) .075 .785 身高(x5,c m )*性别(x2) Betw een G roups ( Co m bined) .000 .994 a. W ith fe wer than three groups,linearity measures for 体重(x4,kg)*性别(x2) cannot be co m puted b. With fe wer than three groups,linearity measures for 身高(x5,c m )* 性别(x2) cannot be com puted 
    第9 章 均数比较分析113
     
    联系测度
    M easures of Association 
    Eta Eta Squared 
    体重(x4, kg) * 性别(x2) 身高(x5,c m ) * 性别(x2) 
    .028 
    .001 
    .001 .000 
    结果分析
    (1) 报表( Report)按男性、女性与男女合并( Total)给出:均数( M ean)、例数、标准差(Std. 
    Deviation)等21 个统计量。
    (2) 方差分析表( A N O V A Table)。
    体重( x4 )*性别( x2 ) F = 0.075, Sig. = 0.785 身高( x5 )*性别( x2 ) F = 0.000, Sig. = 0.994 
    表明身高( x5 )、体重( x4 )按性别( x2)的差异都没有显著性意义( P > 0.05)。
    (3) 相联度量( M easures of Association)的eta(η)值分别是0.001,0.028。表明身高( x5 )、
    体重( x4 )与性别( x2)之间的联系不紧密。
    (4) 本例按性别( x2)分组,只有男性、女性两组,因而不能进行线性检验( Test for linearity)
    。
    9.2 单样本t 检验
    单样本均数与已知总体均数(一般为理论值、标准值或经过大量观察所得到的稳定值等) 
    比较的目的是推断样本所代表的未知总体均数与已知的总体均数有无差别。
    例9-2 已知某水样中含CaC O3 的真值为20.7 m g/ L,现用某方法重复测定该水样11 次, 
    CaC O3 的含量( m g/ L ) 为: 20. 99, 20. 41, 20. 10, 20. 00, 20. 91, 22. 60, 20. 99, 20. 41, 
    20.00, 23.00, 22.00。问该方法测得的均数是否偏高? (杨树勤.中国医学百科全书/ 医学统
    计学.上海:上海科学技术出版社,1985:103) 
    1) 建立数据文件onestt.sav(见图9-3)。
    图9-3 数据文件onestt.sav 
    114 第2 篇 统计分析
     
    2) 选择【A nalyze】..【Co m pare M eans】..【O ne-Sa m ple T Test】,得到如图9-4 所示对话框。
    图9-4 One-Sam ple T Test(t 检验)对话框
    单样本t 检验的检验( Test)变量是CaC O3 。检验值( Test V alue)是20.7。
    3) 单击【O ptions】,得到如图9-5 所示对话框。
    图9-5 O ne-Sa m ple T Test:O ptions(选择项)对话框
    4) 单击【Continue】..【O K】,得到运行结果。 
    T-Test,t 检验
    单样本统计量
    O ne-Sa m ple Statistics 
    N M ean 
    Std. 
    Deviation 
    Std. Error 
    M ean 
    CaC O3 ( m g/ L) 11 21.0373 1.05163 .31708 单样本检验
    One-Sam ple Test 
    Test V alue = 20.7 t df 
    Sig. 
    (2-tailed) M ean 
    Difference 
    95 % Confidence Interval of the 
    Difference 
    Lo w er U pper 
    CaC O3( m g/ L) 1.064 10 .312 .3373 - .3692 1.0438 结果分析
    得到Sig.(2-tailed) = 0.312, P > 0.05,按α= 0.05 水准不拒绝H0,尚不能认为该方法测得
    的均数偏高。
    第9 章 均数比较分析115
     
    116 第 2 篇 统 计 分 析 
    
    9.3独立样本t检验
    t检验用以检验两个样本分别代表的总体均数是否相等,具体的假设检验因各种问题的
    不同而异。t检验又称.. Studentt检验,或成组t检验,团体t检验。它以t分布为其理论根据。
    
    独立样本t检验(Independent-SamplesT Test)用以检验独立样本的均数差异显著性所
    需的Studentt统计量,并给出分组统计量(GroupStatistics),方差齐性的.. Levene检验以及t检
    验的结果。.. 
    
    9.3.1成组 
    t检验
    例9 
    -3某克山病区测得.. 11例急性克山病患者与.. 13名健康人的血磷值( x,mg% )如下。
    
    患者:2.60,3.24,3.73,3.73,4.32,4.73,5.18,5.58,5.78,6.40,6.53
    
    健康人:1.67,1.98,1.98,2.33,2.34,2.50,3.60,3.73,4.14,4.17,4.57,4.82,5.78
    问该地急性克山病患者与健康人的血磷值是否不同.. ? (杨树勤.卫生统计学.第.. 3版,北京:人
    民卫生出版社,1993:32)
    
    1)建立数据文件indepent.sav(见图9-6)。
    图.. 9 -6数据文件.. indepent.sav
    
    变量.. x是血磷值(mg%),变量group是组别,急性克山病患者的值是1,健康人的值是2。
    
    2)选择【Analyze】..【Compare Means】..【Independent-Samples T Test】,得到如图.. 9-7所
    示对话框。
    图9 -7 Indenpedent-SamplesTTest(独立样本t检验)对话框.. 
    
     
    引入进行t 检验的变量(一个或多个),对每一变量都进行t 检验,本例的变量是x (血磷
    值)。
    3) 单击【Define Groups】,得到如图9-8 所示对话框,在此可进行分组变量设置。
    图9-8 Define Groups(确定分组变量)对话框
    4) 单击【Continue】..【O ptions】,得到如图9-9 所示对话框。
    图9-9 Indepandent-Sa m ples T Test: O ptions(选择项)对话框
    默认状态是给出差异值总体均数的95 % 可信区间。用户可以输入1 到99 之间的数值以
    得到不同的可信区间。
    缺失值( M issing V alues)的处理方法有两种。
    .. E xclude cases analysis by analysis,如果分析变量有缺失值,将被排除之,然后分析。
    .. E xclude cases list wise,如果变量有缺失值,将被排除分析之外。
    5) 单击【Continue】..【O K】,得到结果。 
    T-Test , t 检验
    分组变量统计量
    Group Statistics 
    分组( Group) N M ean 
    Std. 
    Deviation 
    Std. Error 
    M ean 
    血磷值(x, m g % ) 1-患者2-健康人
    11 13 
    4.7109 3.3546 
    1.30298 1.30437 
    .39286 .36177 
    独立样本t 检验
    Independent Sam ples Test 
    Levene’s Test for 
    E quality of Variances 
    F Sig. 
    血磷值(x, m g % ) Equal variances assu m ed .038 .847 第9 章 均数比较分析117
     
    独立样本t 检验(续) 
    Independent Sam ples Test 
    Dependent 
    Variables Assu m ptions 
    Statistics 
    t-test Equality of M eans 
    t df 
    Sig. 
    (2-tailed) M ean 
    Difference 
    血磷值(x, m g % ) Equal variances assu m ed 2.539 22 .019 1.3563 Equal variances not assu m ed 2.540 21.354 .019 1.3563 独立样本t 检验(续) 
    Independent Sam ples Test 
    Dependent 
    variables Assu m ptions 
    Statistics 
    t-test for Equality of M eans 
    Std. Error 
    Difference 
    95 % Confidence Interval of the 
    Difference 
    Lo wer U pper 
    血磷值(x, m g % ) Equal variances assu m ed .53411 .24863 2.46396 Equal variances not assu med .53406 .24678 2.46580 结果分析
    得到两组的均数( M ean ) 分别是4. 7109 与3. 3546, 标准差( Std. Deviation) 分别是
    1.3030 与1.3044。
    方差齐性的Levene 检验,得到F = 0.038, Sig. = 0.847, P > 0.80,可认为方差是齐性。
    独立样本t 检验,取Equal variances assu m ed 的t 值(2.539) 与Sig.(2-tialed)值(0.019), 
    P < 0.05。该地急性克山病患者与健康人的血磷值有显著性差异,患者的血磷值较高(因为患
    者的血磷值均数4.7109 高于健康人的血磷值均数3.3546)。
    9.3.2 两样本几何均数的比较
    比较两样本几何均数的目的是推断它们各自代表的总体几何均数是否相等。此方法是将
    呈倍数关系的计量数据经对数变换,然后进行两独立样本t 检验。
    例9-4 将钩端螺旋体病人的血清用标准株和水生株作凝溶试验,所得稀释倍数如下。
    标准株组, x1 : 100 200 400 400 400 400 800 1600 1600 1600 3200 水生株组, x2 : 100 100 100 200 200 200 200 400 1600 
    问两组的平均效价有无差别(杨树勤.中国医学百科全书/ 医学统计学.上海:上海科学技术出
    版社,1985:113)。
    1) 建立数据文件indeptt2.sav(见图9-10)。其中, c = 1 时,为标准株凝溶试验; c = 2 时, 
    为水生株凝溶试验。
    118 第2 篇 统计分析
     
    第 
    9章均数比较分析119
    
    图.. 9 -10数据文件: indeptt2.sav
    
    2)进行对数转换,选择【Transform】..【Compute】,得到如图9-11所示对话框。
    图9 -11 Compute Variable(赋予变量值)对话框
    
    3)数值表达式.. y =lgx。单击【OK】,得到如图9-12所示的转换后的数据文件。
    图9 -12转换后的数据文件indeptt2.sav
    
    4)选择【Analyze】..【CompareMeans】..【Independent -SamplesT Test】,得到如图9-13所
    示对话框。检验变量(Test Variable(s))是.. y。
    图9 -13 Independen-SamplesTTest(t检验)对话框
    
    5)分组变量(Grouping Variable)是c。单击【Define Groups】,得到如图9-8所示对话框。.. 
     
    6) 单击【Continue】..【O ptions】,得到如图9-9 所示对话框。
    7) 单击【Continue】..【O K】, 得到结果。 
    T-Test,t 检验
    分组变量统计量
    Group Statistics 
    分组(c) N M ean 
    Std. 
    D eviation 
    Std. Error 
    M ean 
    Y 1-标准株组11 2.7936 .45200 .13628 2-水生株组9 2.3345 .38210 .12737 独立样本t 检验
    Independent Sam ples Test 
    Levene’s Test for 
    Equality of V ariances 
    F Sig. 
    Y Equal variances assu m ed 1.171 .294 独立样本t 检验(续) 
    Independent Sam ples Test 
    Depen dent 
    varia bles 
    Assu m ptions 
    Statistics 
    t-test for Equality of M eans 
    t df 
    Sig. 
    (2-tailed) M ean 
    Difference 
    Y Equal variances assu m ed 2.419 18 .026 .4591 Equal variances not assu med 2.461 17.966 .024 .4591 独立样本t 检验
    Independent Sam ples Test 
    Depen dent 
    varia bles 
    Assu m ptions 
    Statistics 
    t-test for Equality of M eans 
    Std. Error 
    Difference 
    95 % Confidence Interval of the 
    Difference 
    Lo wer U pper 
    Y Equal variances assu m ed .18984 .06031 .85798 Equal variances not assu med .18653 .06720 .85109 结果分析
    (1) 分组例数均数标准差标准误差标准株组11 2.7936 0.4520 0.1363 水生株组9 2.3345 0.3821 0.1274 120 第2 篇 统计分析
     
    (2) 方差齐性的Levene 检验(Levene’s Test for Equality of V ariances)。 
    F = 1.171 P = 0.294 
    P > 0.20,按α= 0.05 水准不拒绝H0,可认为两组方差是齐性的。
    (3) t 检验(t-test for Equality of M eans)的结果。
    t = 2.419,Sig.(2-tailed) = 0.026, P < 0.05,按α= 0.05 水准,拒绝H0 ,接受H1 ,故可认为
    两组凝溶试验的平均效价不同,标准株(均数是2.7936)高于水生株(均数是2.3345)。
    9.4 配对样本t 检验
    配对样本t 检验(Paired-Sa m ples T Test) 用于检验两相关样本或成对样本所得平均数间
    是否有显著性差异。结果输出是以双侧概率以及95 % 可信区间表示。
    例9-5 10 例矽肺患者经克矽平治疗前后的血红蛋白量(g/ dl)见表9-1,问治疗对血红蛋
    白量有无作用? (杨树勤.中国医学百科全书/ 医学统计学. 上海:上海科学技术出版社,1985: 
    103) 
    表9-1 矽肺患者经克矽平治疗前后的血红蛋白量
    治疗前11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 治疗后14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 1) 建立数据文件pairst1.sav(见图9-14)。
    图9-14 数据文件pairst1.sav 
    2) 选择【A nalyze】..【Co m pare M eans】..【Paired-Sa m ples T T est】, 得到如图9-15 所示对
    话框。
    图9-15 Paired-Sa m ples T Test(t 检验)对话框
    第9 章 均数比较分析121
     
    配对变量( Paired Variables )可引入一个两相关样本或多个成对样本,每一个成对样本都给
    出一个t 检验结果。本例相关样本是x1, x2(见图9 -15)。如果有多个成对变量,可重复选用。
    3) 单击【O ptions】,得到如图9-16 所示对话框。
    图9-16 Paired-Sa m ples T Test:O ptions(t 检验)对话框
    默认状态是给出差异值总体均数的95 % 可信区间。但用户可以输入1~99 之间的数值
    以得到不同的可信区间。缺失值( M issing V alues)的处理方法与例9-3 相同。
    4) 单击【Continue】..【O K】,得到结果。 
    T-Test,t 检验
    配对样本统计量
    Paired Sam ples Statistics 
    M ean N 
    Std. 
    Deviation 
    Std. Error 
    M ean 
    Pair1 治疗前(x1) 12.590 10 1.6326 .5163 治疗后(x2) 13.270 10 1.0802 .3416 配对样本相关系数
    Paired Sa m ples Correlations 
    N Correlation Sig. 
    Pair 1 治疗前(x1) & 治疗后(x2) 10 .319 .370 配对样本检验
    Paired Sa m ples Test
    Paired Differences 
    M ean 
    Std. 
    D eviation 
    Std. Error 
    M ean 
    95 % Confidence Interval of the 
    Difference 
    Low er U pper 
    Pair 1 治疗前(x1) - 治疗后(x2) - .680 1.6457 .5204 - 1.857 .497 配对样本检验
    Paired Sa m ples Test 
    Pairs 
    Statistics 
    t df 
    Sig. 
    (2-tailed) Pair 1 治疗前(x1) - 治疗后(x2) - 1.307 9 .224 122 第2 篇 统计分析
     
    结果分析
    得到Sig.(2-tailed) = 0.244, 0.5 > P > 0.2,按α= 0.05 水准,不拒绝H0,尚不能认为用克
    矽平治疗矽肺患者对血红蛋白量有作用。
    9.5 单因素方差分析
    单因素方差方析也叫一维方差分析( O ne- W ay A N O V A ),它用以对单因素多个独立样本
    均数进行比较,并可以进行均数的两两之间比较(多重比较, M ultiple Co m parisons),或指定对
    比以及给出方差分析表等。
    9.5.1 含量相等的单因素方差分析
    例9-6 用二氧化矽(SiO2 )50 m g 对大鼠染尘后不同时期全肺湿重的变化见表9-2,试比较
    染尘后1 月,3 月,6 月,三个时期的全肺湿重有无差别(单因素三个水平,完全随机平衡设计的
    方差分析)。(杨树勤.卫生统计学.第2 版,北京:人民卫生出版社,1989:41) 
    表9-2 不同时期全肺湿重
    一 月三 月六 月
    3.4 3.4 3.6 3.6 4.4 4.4 4.3 3.4 5.1 4.1 4.2 5.0 4.2 4.7 5.5 3.3 4.2 4.7 1) 建立数据文件one way1.sav(见图9-17)。
    图9-17 数据文件:one way1.sav 
    在图9-17 中,变量tim e 是不同时期( m onth), 1 是一月(1 m onth),3 是三月(3 m onth),6 
    是六月(6 m onth),变量w eight 是全肺湿重。
    2) 选择【A nalyze】..【Co m pare M eans】..【O ne- W ay A N O V A】,得到如图9-18 所示对话
    框。 
    本例分析的因变量( Dependent List)是W eight(全肺湿重)。单一因子( Factor)是tim e(时
    间)。单击【Contrasts】,得到如图9-19 所示对话框。
    第9 章 均数比较分析123
     
    图9-18 O ne- W ay A N O V A (单因素方差分析)对话框
    图9-19 Contrasts(对比)对话框 
    Contrasts(对比)对话框有如下选项。
    .. Polyno mial,多项式,用户选此做均衡设计对比。
    .. Degree,多项式的次数。☆ Linear,一次多项式。 ☆ Q uadratic,二次多项式。☆ Cubic,三次多项式。 ☆ 4th,四次多项式。 
    ☆ 5th,五次多项式。
    用户可以利用Coefficients(多项式指定各组均数的系数)选项自定用以计算t 统计量的检
    验对比,输入每一群组因子变量的系数值,然后单击【A dd】(加)。
    3) 单击【Continue】..【Post H oc】,得到如图9-20 所示对话框。
    图9-20 O ne- W ay A N O V A Post H oc M ultiple Co m parisons(验后多重比较)对话框
    124 第2 篇 统计分析
     
    第 
    9章均数比较分析125
    
    Post Hoc MultipleComparisons(验后多重比较)对话框有如下选项。
    
    .... EqualVariancesAssumed,假定方差是齐性。.. 
    
    ☆.. LSD(Least-SignificantDifference),最小显著差异法,0<α<1。.. 
    
    ☆Bonferroni(LSDMCD),修正最小显著差异法。.. 
    
    ☆Sidak,斯大克法。.. 
    
    ☆Scheffe,谢佛检验法。.. 
    
    ☆.. R-E-G-W F,赖安-艾耶-盖.. F法。.. 
    
    ☆.. R-E-G-W Q,赖安-艾耶-盖.. Q法。.. 
    
    ☆.. S-N-K,Student-Newman-Keuls,SNK法,默认α=0.05。.. 
    
    ☆Tukey,图基法,可靠显著差异法。.. 
    
    ☆.. Tukey’s-b,图基s-b法。.. 
    
    ☆Duncan,邓肯法。.. 
    
    ☆.. Hochberg’sGT2,霍契比.. GT2法。.. 
    
    ☆Gabriel,盖比理尔法。.. 
    
    ☆.. Waller-Duncan,娃尔.. -邓肯法。.. 
    
    ☆TypeI/TypeIIErrorRatio,类型Ⅰ/类型Ⅱ误差比。.. 
    
    ☆Dunnett,邓尼特法。.. 
    
    ☆Control Category,控制类别。.. 
    
    ☆Test,检验。可选择2-Side(双侧面),Control(控制以下),Control(控制以上)。
    .... EqualVariancesNotAssumed,假定方差非齐性。.. 
    
    ☆.. Tamhane’s T2,塔海尼.. T2法。.. 
    
    ☆.. Dunnett’sT3,邓尼特T3法。.. 
    
    ☆.. Games-Howell,盖门.. -霍威尔法。.. 
    
    ☆.. Dunnett’s C,邓尼特.. C法。
    .... Significancelevel:0.05,显著水平。
    
    4)单击【Continue】..【Options】,得到如图9-21所示对话框。
    图9-21 One-Way ANDVA Options(选择项)对话框.. 
    
    One-Way ANDVA Options(选择项)对话框有如下选项。
    .... Statistics,(统计量)。.. 
    
     
    ☆ Descriptive,描述性统计量。 
    ☆ Fixed and rando m effects, 固定与随机效应。 
    ☆ H o m ogeneity of variance test, Levene 方差齐性检验。 
    ☆ Bro w n-Forsythe, 布朗- 福塞斯统计量。 
    ☆ W elch, 韦尔奇统计量。
    .. M ean Plot,均数图形。
    .. M issing V alues,缺失值。☆ E xclude cases analysis by analysis,统计分析时,删除含有缺失值的个案。 
    ☆ E xclude cases listwise,串列删除含有缺失值的个案。
    5) 单击【Continue】..【O K】,得到结果(摘要)。 
    O neway,单因素方差分析
    Descriptives 
    Dependent Variable:全肺湿重( weight,g) 
    Groups 
    Statistics 
    N M ean Std. Deviation Std. Error 
    95 % Confidence Interval for M ean 
    Low er Bound U pper Bound 
    1-一月6 3.800 .4561 .1862 3.321 4.279 3-三月6 4.217 .4401 .1797 3.755 4.678 6-六月6 4.717 .6616 .2701 4.022 5.411 T otal 18 4.244 .6289 .1482 3.932 4.557 描述性统计量
    Descriptives 
    Dependent V ariable:全肺湿重( w eight,g) 
    Groups 
    Statistics 
    Minim u m M axim u m 
    1-一月3.3 4.3 3-三月3.4 4.7 6-六月3.6 5.5 T otal 3.3 5.5 方差齐性检验
    Test of H o mogeneity of V ariances 
    全肺湿重( weight,g) 
    Levene 
    Statistic df1 df2 Sig. 
    .671 2 15 .526 126 第2 篇 统计分析
     
    方差分析表
    A N O V A 
    全肺湿重( weight,g) 
    Su m of 
    Squares df M ean Square 
    Between (Co m bined) 2.528 2 1.264 Groups Linear C ontrast 2.518 1 2.518 Term Deviation .010 1 .010 Within 
    Groups 
    4.197 15 .280 T otal 6.724 17 方差分析表(续) 
    A N O V A 
    Dependent V ariable:全肺湿重( w eight,g) 
    Source 
    Statistics 
    F Sig. 
    Betw een ( Co m bined) 4.517 .029 Groups Linear Contrast 9.000 .009 T er m Deviation .035 .854 Post Hoc Tests,验后各组均数的多重比较检验
    M ultiple Co m parisons 
    Dependent V ariable:全肺湿重( w eight,g) 
    (I) 时期
    (time, 月) 
    (J) 时期
    (tim e, 月) 
    M ean 
    Difference 
    (I-J) 
    Std. 
    Error Sig. 
    95 % Confidence 
    Interval 
    Lo wer 
    Bound 
    U pper 
    Bound 
    T ukey H SD 1-一月3-三月- .417 .3054 .383 - 1.210 .377 6-六月- .917 * .3054 .023 - 1.710 - .123 3-三月1-一月.417 .3054 .383 - .377 1.210 6-六月- .500 .3054 .261 - 1.293 .293 6-六月1-一月.917 * .3054 .023 .123 1.710 3-三月.500 .3054 .261 - .293 1.293 Scheffe 1-一月3-三月- .417 .3054 .416 - 1.245 .412 6-六月- .917 * .3054 .029 - 1.745 - .088 3-三月1-一月.417 .3054 .416 - .412 1.245 6-六月- .500 .3054 .291 - 1.329 .329 6-六月1-一月.917 * .3054 .029 .088 1.745 3-三月.500 .3054 .291 - .329 1.329 LS D 1-一月3-三月- .417 .3054 .193 - 1.068 .234 6-六月- .917 * .3054 .009 - 1.568 - .266 3-三月1-一月.417 .3054 .193 - .234 1.068 6-六月- .500 .3054 .122 - 1.151 .151 6-六月1-一月.917 * .3054 .009 .266 1.568 3-三月.500 .3054 .122 - .151 1.151 第9 章 均数比较分析127
     
    续表
    (I) 时期
    (time, 月) 
    (J) 时期
    (tim e, 月) 
    M ean 
    Difference 
    (I-J) 
    Std. 
    Error Sig. 
    95 % Confidence 
    Interval 
    Lo wer 
    Bound 
    U pper 
    Bound 
    Bonferroni 1-一月3-三月- .417 .3054 .578 - 1.239 .406 6-六月- .917 * .3054 .027 - 1.739 - .094 3-三月1-一月.417 .3054 .578 - .406 1.239 6-六月- .500 .3054 .367 - 1.323 .323 6-六月1-一月.917 * .3054 .027 .094 1.739 3-三月.500 .3054 .367 - .323 1.323 Sidak 1-一月3-三月- .417 .3054 .474 - 1.237 .403 6-六月- .917 * .3054 .027 - 1.737 - .097 3-三月1-一月.417 .3054 .474 - .403 1.237 6-六月- .500 .3054 .324 - 1.320 .320 6-六月1-一月.917 * .3054 .027 .097 1.737 3-三月.500 .3054 .324 - .320 1.320 G abriel 1-一月3-三月- .417 .3054 .458 - 1.232 .398 6-六月- .917 * .3054 .026 - 1.732 - .102 3-三月1-一月.417 .3054 .458 - .398 1.232 6-六月- .500 .3054 .312 - 1.315 .315 6-六月1-一月.917 * .3054 .026 .102 1.732 3-三月.500 .3054 .312 - .315 1.315 Hochberg 1-一月3-三月- .417 .3054 .458 - 1.232 .398 6-六月- .917 * .3054 .026 - 1.732 - .102 3-三月1-一月.417 .3054 .458 - .398 1.232 6-六月- .500 .3054 .312 - 1.315 .315 6-六月1-一月.917 * .3054 .026 .102 1.732 3-三月.500 .3054 .312 - .315 1.315 a 1-一月6-六月* * . T he mean difference is significant at the .05 level a. D unnett t-tests treat one group as a control,and co m pare all other groups against it 多重比较
    M ultiple Co m parisons 
    Dependent V ariable:全肺湿重( w eight,g) 
    (I) 时期
    (time, 月) 
    (J) 时期
    (tim e, 月) 
    M ean 
    Difference 
    (I-J) 
    Std. 
    Error Sig. 
    95 % Confidence Interval 
    Lo wer 
    Bound 
    U pper 
    Bound 
    Ta m hane 1-一月3-三月- .417 .2587 .360 - 1.157 .324 6-六月- .917 .3280 .062 - 1.878 .045 3-三月1-一月.417 .2587 .360 - .324 1.157 6-六月- .500 .3244 .405 - 1.455 .455 6-六月1-一月.917 .3280 .062 - .045 1.878 3-三月.500 .3244 .405 - .455 1.455 128 第2 篇 统计分析
     
    续表
    (I) 时期
    (time, 月) 
    (J) 时期
    (tim e, 月) 
    M ean 
    Difference 
    (I-J) 
    Std. 
    Error Sig. 
    95 % Confidence Interval 
    Lo wer 
    Bound 
    U pper 
    Bound 
    D unnett T3 1-一月3-三月- .417 .2587 .341 - 1.149 .315 6-六月- .917 .3280 .058 - 1.866 .032 3-三月1-一月.417 .2587 .341 - .315 1.149 6-六月- .500 .3244 .380 - 1.442 .442 6-六月1-一月.917 .3280 .058 - .032 1.866 3-三月.500 .3244 .380 - .442 1.442 G am es- Ho well 
    1-一月3-三月- .417 .2587 .286 - 1.126 .293 6-六月- .917 .3280 .050 - 1.835 .002 3-三月1-一月.417 .2587 .286 - .293 1.126 6-六月- .500 .3244 .320 - 1.411 .411 6-六月1-一月.917 .3280 .050 - .002 1.835 3-三月.500 .3244 .320 - .411 1.411 D unnett C 1-一月3-三月- .417 .2587 - 1.259 .425 6-六月- .917 .3280 - 1.984 .151 3-三月1-一月.417 .2587 - .425 1.259 6-六月- .500 .3244 - 1.556 .556 6-六月1-一月.917 .3280 - .151 1.984 3-三月.500 .3244 - .556 1.556 D unnett ta 
    (2-sided) 1-一月6-六月- .917 * .3054 .017 - 1.662 - .172 3-三月6-六月- .500 .3054 .209 - 1.245 .245 * . T he m ean difference is significant at the .05 level. 
    a. D unnett t-tests treat one group as a control,and co m pare all other groups against it. 
    全肺湿重( weight,g) 
    时期(tim e, 月) 
    N 
    Subset for alpha = .05 1 2 Student-N ew man-K eulsa 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .193 .122 T ukey H SD a 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .383 .261 T ukey Ba 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 D uncana 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .193 .122 第9 章 均数比较分析129
     
    续表
    时期(tim e, 月) 
    N 
    Subset for alpha = .05 1 2 Scheffea 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .416 .291 G abriela 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .458 .312 R yan-Einot-Gabriel- W 1-一月6 3.800 elsch F 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .193 .122 R yan-Einot-Gabriel- W 1-一月6 3.800 elsch Range 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .193 .122 Hochberga 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 Sig. .458 .312 W aller-Duncana,b 1-一月6 3.800 3-三月6 4.217 4.217 6-六月6 4.717 M eans for groups in ho m ogeneous subsets are displayed 
    a. Uses H ar monic M ean Sa m ple Size = 6.000 
    b. T ype 1/ Type 2 Error Seriousness Ratio = 100 
    * T he mean difference is significant at the .05 level 
    M eans Plots,均数图 
    130 第2 篇 统计分析
     
    结果分析
    (1) 本例方差齐性Levene 检验( Test of H o m ogeneity of V ariances), P = 0.526。可认为方
    差齐( P > 0.05)。
    (2) 方差分析表( A N O V A )表明, F = 4.517, Sig. = 0.029, P < 0.05,按α= 0.05 水准,拒
    绝H0,接受H1,,故可认为三个不同时期全肺湿重( W eight)有差别。
    (3) 多重比较检验( Post H oc Tests), 即图基- 可靠显著差异法( T uky H S D ), 谢佛检验法
    (Scheffe),最小显著差异法( L S D, Least-significant difference,0 <α< 1),修正最小显著差异法
    (Bonferroni, L S D M C D ), Sidak 法( Sidak), Gabriel 法( G abriel), H ochberg 法( H ochberg) 以及
    D unnett t(2-sided)法( T 3)等方法表明:只有一月与六月两个时期的差别有显著性意义( P < 
    0.05),而其余时期的差别没有显著性意义。其他的多重比较检验方法表明,任何两时期间的
    差别没有显著性意义( P > 0.05)。
    9.5.2 含量不等的单因素方差分析
    例9-7 为试验三种镇咳药,先以N H . O H 0.2 m L 对小白鼠喷雾,测定其发生咳嗽的时
    间,然后分别用药灌胃,在同样条件下再测定发生咳嗽的时间,并以“用药前的时间-用药后的
    时间”之差为指标,计算延迟发生咳嗽时间(秒)(见表9-3)。试比较三种药的镇咳作用。(郭
    祖超.医用数理统计方法.北京:人民卫生出版社,1983:265) 
    表9-3 三种镇咳药延迟咳嗽的时间(s)(各组例数不等) 
    可 待 因复方2 号复方1 号60 50 40 30 20 10 100 45 35 85 55 25 20 20 20 55 15 15 45 80 35 30 - 10 15 75 105 - 5 105 75 30 10 25 60 70 45 65 60 45 30 50 1) 建立数据文件one way2.sav。
    2) 选择【A nalyze】..【Co m pare M eans】..【O ne- W ay A N O V A】。
    本例的因变量名列( Dependent List)是y (时间,s),因子变量( Factor)是g (分组),多重
    比较检验采用最小显著差异法,( L S D, Least-significant difference,0 <α< 1)。选择项( O ptions) 
    第9 章 均数比较分析131
     
    中的统计量(Statistics)选择H o m ogeneity-of-variances。得到以下运行结果。 
    O ne- W ay A N D V A,单因素方差分析
    方差齐性检验
    Test of H o mogeneity of V ariances 
    时间(y,秒) 
    Levene 
    Statistic df1 df2 Sig. 1.443 2 37 .249 方差分析表
    A N O V A 
    时间(y,秒) 
    Su m of 
    Squares df M ean Square F Sig. 
    Between Groups 4994.167 2 2497.083 3.445 .042 Within Groups 26815.833 37 724.752 T otal 31810.00 39 Post Hoc Tests 
    多重比较
    M ultiple Co m parisons 
    Dependent Variable:时间(y,秒) 
    LS D 
    (I) 分组
    (group) 
    (J) 分组
    (group) 
    M ean Difference 
    (I-J) 
    Std. 
    Error 
    Sig. 
    95 % Confidence Interval 
    Lo wer 
    Bound 
    U pper 
    Bound 
    1-可待因2-复方2 号16.50 10.991 .142 - 5.77 38.77 3-复方1 号28.83 * 10.991 .013 6.56 51.10 2-复方2 号1-可待因- 16.50 10.991 .142 - 38.77 5.77 3-复方1 号12.33 9.830 .217 - 7.58 32.25 3-复方1 号1-可待因- 28.83 * 10.991 .013 - 51.10 - 6.56 2-复方2 号- 12.33 9.830 .217 - 32.25 7.58 * . T he m ean difference is significant at the .05 level. 
    结果分析
    (1) 方差齐性Levene 检验( T est of H o m ogeneity of V ariances) P = 0. 249,可认为方差齐
    ( P > 0.05)。
    (2) 方差分析表明, F = 3.445,Sig. = 0.042,按α= 0.05 水准,拒绝H0 ,接受H1,故可认为
    三种药对小白鼠有不同的镇咳作用。
    (3) 多重比较( L S D 方法)表明,可待因与复方1 号之间有显著性差异( P < 0.05)。
    9.5.3 几何均数的单因素方差分析
    科学研究中,对于多组成等比数列的资料,通常要通过对数变换后才能进行方差分析。
    132 第2 篇 统计分析
     
    例9-8 某市对4 个不同年龄组的健康男子接种某疫苗后,测定其抗体滴度资料,数据见
    表9-4。问各组的抗体平均滴度(即几何均数)之间的差别有无显著性。
    表9-4 健康男子各年龄组抗体滴度的测定结果
    1~10 岁11~20 岁21~30 岁31~40 岁1:2 1:8 1:16 1:32 1:4 1:8 1:32 1:64 1:4 1:16 1:32 1:64 1:8 1:32 1:64 1:128 1:8 1:32 1:64 1:256 1:16 1:64 1:128 1:256 1:32 1:128 1:256 1:512 1) 建立数据文件one way4.sav(见图9-22)。
    图9-22 数据文件oneway4.sav 
    2) 选择【A nalyze】..【Co m pare M eans】..【O ne- W ay A N O V A】, 得到如图9-23 所示对话
    框。
    图9-23 O ne- W ay A N O V A(单因素方差分析)对话框
    单因素方差分析( O ne- W ay A N O V A ) 的因变量名列( Dependent List)是x。因子变量
    ( Factor)是g。
    3) 单击【O ptions】。统计量(Statistics)选用方差齐性检验( H o m ogeneity of variance test)。
    4) 单击【Continue】..【O K】,得到计算结果(一)。
    第9 章 均数比较分析133
     
    方差齐性检验
    Test of H o mogeneity of V ariances 
    抗体滴度(x) 
    Levene 
    Statistic df1 df2 Sig. 6.829 3 24 .002 方差分析表
    A N O V A 
    抗体滴度(x) 
    Su m of 
    Squares df M ean Square F Sig. 
    Between Groups 125219.86 3 41739.952 4.413 .013 Within Groups 226984.00 24 9457.667 T ota1 352203.86 27 结果分析 方差齐性列文( Levene)检验,表明本例方差不齐( P(Sig. = 0.002) < 0.05)。
    5) 对x 取常用对数转换,转换后的目标变量( Target Variable)是lg x。选择【Transfor m】
    ..【Co m pute】,得到如图9-24 所示对话框。
    图9-24 Co m puteVariable(赋予变量值)对话框
    6) 目标变量( T arget Variable)是lg x,数值表达式( N u m eric E xpression)是L G 10( x),单击
    【O K】,得到如图9-25 所示的转换后的数据文件。
    图9-25 转换后的数据文件onew ay4.sav 
    134 第2 篇 统计分析
     
    第 
    9章均数比较分析135
    
    7)再选择【Analyze】..【Compare Means】..【One-Way ANOVA】,得到如图9-26所示对话
    框。
    
    图9-26 One-Way ANOVA(单因素方差分析)对话框
    
    因变量名列(Dependent List)是.. lgx。
    
    8)单击【Contrasts】,选择.. Polynomial(多项式)。Degree(次数)取.. Linear(线性)。
    9)单击【Continue】..【Post Hoc】,得到如图9-27所示对话框。在PostHoc MultipleComparisons(
    验后多重比较)对话框中选择.. LSD,Bonferroni。
    图9-27 One-WayANOVA:PostHocMultipleComparisons(验后多重比较)对话框
    
    10)单击【Continue】..【Options】,得到如图9-28所示对话框。
    
    图9-28 One-Way ANOVA:Options(选择项)对话框
    
    统计量(Statistics)选择描述性统计分析(Descriptive)与方差齐性检验(Homogeneity ofvariance test)。
    
    11)单击【Continue】..【OK】,得到计算结果(二)。.. 
    
     
    O neway,单因素方差分析
    描述性统计量
    Descriptives 
    L G X 
    N M ean Std. Deviation Std. Error 
    1-1~10 岁7 .8601 .40494 .15305 2-11~20 岁7 1.4191 .45035 .17022 3-21~30 岁7 1.7632 .40494 .15305 4-31~40 岁7 2.1072 .42572 .16091 T otal 28 1.5374 .61496 .11622 描述性统计量(续) 
    Descriptives 
    D ependent Variable: L G X 
    Groups 
    Statistics 
    95 % Confidence Interval for M ean L ow er Bound U pper Bound 
    Minim u m M axim u m 
    1-1~10 岁.4856 1.2346 .30 1.51 2-11~20 岁1.0026 1.8356 .90 2.11 3-21~30 岁1.3887 2.1377 1.20 2.41 4-31~40 岁1.7135 2.5009 1.51 2.71 T otal 1.2989 1.7759 .30 2.71 方差齐性检验
    Test of H o mogeneity of V ariances 
    L G X 
    Levene Statistic df1 df2 Sig. .087 3 24 .966 方差分析表
    A N O V A 
    L G X 
    Su m of 
    Squares df 
    M ean 
    Square F Sig. 
    Between ( Co m bined) 5.939 3 1.980 11.121 .000 Groups Linear Contrast 5.842 1 5.842 32.818 .000 Term Deviation .097 2 .049 .273 .764 Within Groups 4.272 24 .178 T otal 10.211 27 136 第2 篇 统计分析
     
    多重比较
    M ultiple Co m parisons 
    D ependent Variable:L G X 
    (I)年龄分组(g) (J)年龄分组(g) 
    M ean 
    Difference 
    (I - J) 
    Std. 
    Error 
    Sig. 
    95 % Confidence Interval 
    Low er 
    Bound 
    U pper 
    Bound 
    L S D 1-1~10 岁2-11~20 岁- .5591 * .22552 .021 - 1.02 - .0936 3-21~30 岁- .9031 * .22552 .001 - 1.37 - .4376 4-31~40 岁- 1.2471 * .22552 .000 - 1.71 - .7817 2-11~20 岁1-1~10 岁.5591 * .22552 .021 - .0936 1.0245 3-21~30 岁- .3440 .22552 .140 - .8095 .1214 4-31~40 岁- .6881 * .22552 .005 - 1.15 - .2226 3-21~30 岁1-1~10 岁.9031 * .22552 .0001 . 4376 1.3685 2-11~20 岁.3440 .22552 .140 - .1214 .8095 4-31~40 岁- .3440 .22552 .140 - .8095 .1214 4-31~40 岁1-1~10 岁1.2471 * .22552 .000 .7817 1.7126 2-11~20 岁.6881 * .22552 .005 .2226 1.1535 3-21~30 岁.3440 .22552 .140 - .1214 .8095 Bonferroni 1-1~10 岁2-11~20 岁- .5591 .22552 .124 - 1.21 .0893 3-21~30 岁- .9031 * .22552 .003 - 1.55 - .2547 4-31~40 岁- 1.2471 * .22552 .000 - 1.90 - .5987 2-11~20 岁1-1~10 岁.5591 * .22552 .124 - .0893 1.2074 3-21~30 岁- .3440 .22552 .841 - .9924 .3043 4-31~40 岁- .6881 * .22552 .033 - 1.34 - .0397 3-21~30 岁1-1~10 岁.9031 * .22552 .003 . 2547 1.5515 2-11~20 岁.3440 .22552 .841 - .3043 .9924 4-31~40 岁- .3440 .22552 .841 - .9924 .3043 4-31~40 岁1-1~10 岁1.2471 * .22552 .000 .5987 1.8955 2-11~20 岁.6881 * .22552 .033 .0397 1.3364 3-21~30 岁.3440 .22552 .841 - .3043 .9924 * . T he m ean difference is significant at the .05 level 
    结果分析
    由于计算结果(一)的方差不齐( P < 0.05),其结果不可取。经对数转换后,计算结果(二) 
    的方差齐( P > 0.90,Sig. = 0.996)。方差分析表( A N O V A )表明,各组抗体滴度的总体几何均
    数的差异有显著性( P < 0.01),多组样本均数的两两比较检验方法结果如下。
    对比组L S D Bonferroni 
    1 与2 * 1 与3 * * 1 与4 * * 2 与3 2 与4 * * 3 与4 “ * ”号表示有显著性差异( P < 0.05),本例的两种检验方法的结果略有不同。
    第9 章 均数比较分析137
     
    第 11 章 相 关 分 析
    
    
    相关分析(Correlate)是研究变量间密切程度的一种统计方法。它有双变量相关分析
    (Bivariate)、偏相关分析(Partial)和距离相关分析(Distances)。.. 
    
    11.1双变量相关分析
    当分析多个事物之间的关系,而这种关系又往往是变量(Variables)之间的数量关系时,可
    以用双变量相关分析(Bivariate)方法,并作出统计学推断。
    
    双变量相关分析可以输出两个或多个变量两两间的皮尔逊(Pearson)相关系数(PearsonCorrelation Coefficients),肯德尔(Kendall)相关系数(KendallCorrelation Coefficients)和斯皮尔
    曼(Spearman)等级相关系数(Spearman Correlation Coefficients)及其.. P值(双侧),变量的均数
    (Mean),标准差(Std. Deviation)等统计量。.. 
    
    11.1.1皮尔逊(Pearson)相关分析
    例 
    11 
    -1某妇幼保健医院对.. 33名产妇进行产前检查并得到婴儿体重的原始观察值,包
    括:髂前上棘间径( x 1,cm),髂脊间径(x 2,cm),耻骶外径( x 3,cm),坐骨节间径( x 4,cm),血红
    蛋白(x 5,g)和婴儿体重(x 6,kg)等6个指标。并已建立数据文件hong1.sav。试计算.. x 1~x4
    的皮尔逊(Pearson)相关系数。
    
    1)调入数据文件.. hong1.sav。
    2)选择【Analyze】..【Correlate】..【Bivariate】,得到如图11-1所示对话框。引入双变量相
    关分析(BivariateCorrelations)的变量(Variables)是.. x 1~x4。
    图.. 11 -1Bivariate Correlations(双变量相关分析)对话框
    
    在图.. 11-1所示对话框中可进行如下设置。
    .... Correlation Coefficients,相关分析系数。
    
     
    ☆ Pearson,皮尔逊相关系数(积距相关系数),本例选择此项。☆ Kendall’s tau-b,肯德尔τ-b 相关系数,它反映两有序分类变量的一致性。☆ Spear m an,斯皮尔曼等级相关系数,即常用的秩相关分析。.. Test of Significance,显著性检验。☆ T w o-tailed,双尾显著性检验(默认格式)。☆ O ne-tailed,单尾显著性检验。☆ Flag significant correlations,标出有显著性意义的相关系数,即用一个星号“ * ”标记在α= 0.05 水平上有显著性意义, 而用两个星号“ ** ”标记在α= 0.01 水平上有显
    著性意义。
    3) 单击【O ptions】,得到如图11-2 所示对话框。
    图11-2 Bivariate Correlations: O ptions(双变量相关分析的选择项)对话框
    在Bivariate Correlations: O ptions(双变量相关分析的选择项)对话框可进行如下设置。
    .. Statistics,统计量(对Pearson 相关系数而言)。☆ M eans and standard deviations,显示每一个变量的均数与标准差。☆ Cross-product deviations and covariances,显示每一对变量的离均差交叉积与协方差阵。
    .. M issing V alues,缺失值。☆ E xclude cases pairwise,成对删除含有缺失值的个案。
    ☆ E xclude cases listwise,成列删除含有缺失值的个案。
    4) 单击【Continue】..【O K】,得到结果。 
    Correlations,皮尔逊(Pearson)相关分析
    描述性统计量
    Descriptive Statistics 
    M ean 
    Std. 
    Deviation 
    N 
    髂前上棘间径23.6515 1.20211 33 髂脊间径25.9394 1.31552 33 耻骶外径17.5909 .97991 33 坐骨节间径7.8485 .64329 33 第11 章 相关分析203
     
    相关系数矩阵
    Correlations 
    髂前上棘间径髂脊间径耻骶外径坐骨节间径
    髂前上棘间径Pearson C orrelation 1 .796 ** .684 ** .283 sig.(2-tailed) . .000 .000 .110 Su m of Squares and 
    Cross-products 
    46.242 40.303 25.795 7.008 C ovariance 1.445 1.259 .806 .219 N 33 33 33 33 髂脊间径Pearson C orrelation .796 ** 1 .617 ** .441 * Sig.(2-tailed) .000 . .000 .010 Su m of Squares and 
    Cross-products 
    40.303 55.379 25.432 11.947 C ovariance 1.259 1.731 .795 .373 N 33 33 33 33 耻骶外径Pearson C orrelation .684 ** .617 ** 1 .171 Sig.(2-tailed) .000 .000 . .341 Su m of Squares and 
    Cross-products 
    25.795 25.432 30.727 3.455 C ovariance .806 .795 .960 .108 N 33 33 33 33 坐骨节间径Pearson C orrelation .283 .441 * .171 1 Sig.(2-tailed) .110 .010 .341 . Su m of Squares and 
    Cross-products 
    7.008 11.947 3.455 13.242 C ovariance .219 .373 .108 .414 N 33 33 33 33 ** . Correlation is significant at the 0. 01 level(2-tailed) 
    * . Correlation is significant at the 0. 05 level(2-tailed) 
    11.1.2 肯德尔( K endall)相关分析
    例11-2 表11-1 是一些环状化合物的分子量与用药后大白鼠24 h 胆汁排泄量资料,试
    问分子量数值(value)与胆汁排泄量(excrete)有无相关关系。(金丕焕.医用统计方法.上海:上
    海医科大学出版社,1993:229) 
    表11-1 环状化合物的分子量与用药后大白鼠24 小时胆汁排泄量
    化 合 物分子量数值24h 胆汁排泄量占投药量( % ) 联苯154 22 4 - 烃基联苯170 37 4,4′- 二烃基联苯186 65 4 - 葡萄糖醛酸联苯346 59 4 - 葡萄糖醛酸- 4′- 烃基联苯362 92 已烯雌酚268 94 已烯雌酚的葡萄糖醛酸甙445 100 酚酞318 100 酚酞葡萄糖酸甙495 75 1,2,3,4 - 四氢化萘132 13 204 第2 篇 统计分析
     
    本例可用肯德尔( Kendall)等级相关分析。
    1) 建立数据文件kendall1.sav。
    2) 选择【A nalyze】..【Correlate】..【Bivariate】,得到如图11-3 所示对话框。
    图11-3 Bivariate Correlations(双变量相关分析)对话框
    3) 选择【Kendall’s tau-b】..【O ptions】,得到如图11-4 所示对话框。
    图11-4 Bivariate Correlations: Options(双变量相关分析选择项)对话框
    4) 单击【Continue】..【O K】,得到结果。 
    N onpara m etric Correlations,非参数K endall 相关分析
    相关系数矩阵
    Correlations 
    分子量数值排泄量占投药量( % ) 
    Kendall’s tau-b 分子量数值C orrelation Coefficient 
    Sig.(2-tailed) N 
    1.000 . 
    10 
    .539 * .031 
    10 
    排泄量占投药量
    ( % ) 
    C orrelation Coefficient 
    Sig.(2-tailed) N 
    .539 * .031 
    10 
    1.000 . 
    10 
    * . Correlation is significant at the .05 level (2-tailed) 
    由结果可见,肯德尔( K endall)等级相关系数tau-b = 0.539, P < 0.05。分子量(value)数值
    与胆汁排泄量(excrete)等级有相关关系。
    第11 章 相关分析205
     
    11.1.3 肯德尔( K endall)等级(计数资料)相关分析
    例11-3 表11-2 是116 名婴儿的辅助食品供给和营养状况评价资料。试问辅助食品
    (food)供给与营养状况评价(appraise)有无相关关系。(金丕焕.医用统计方法.上海:上海医科
    大学出版社,1993:231) 
    表11-2 辅助食品供给和营养状况评价资料
    辅助食品供给(food) 
    营养状况评价(appraise) 
    差(1) 中(2) 好(3) 不足(1) 4 20 6 足(2) 7 38 41 本例对婴儿的辅助食品(food)供给情况分为两个等级(足与不足), 再对营养状况评价
    (appraise)分为三个等级(差、中、好),可看做是按等级同时又有很多重复等级的(计数)资料, 
    它是一个2× k 列联表( Contingency Table),可用肯德尔( K endall)等级相关分析方法。
    1) 建立数据文件K endall2.sav,格式如图11-5 所示。
    2) 选择【Data】..【W eight Cases】,得到如图11-6 所示对话框。对Count(计数)加权,即频
    数变量( Frequency V ariable)是:计数(Count)。单击【O K】。
    图11-5 数据文件Kendall2.sav 图11-6 W eight Cases(个案加权)对话框
    3) 再选择【A nalyze】..【Correlate】..【Bivariate】,得到如图11-7 所示对话框。
    图11-7 Bivariate Correlations(双变量相关分析)对话框
    206 第2 篇 统计分析
     
    双变量相关分析(Bivariate Correlations)的变量( V ariables)是:辅助食品供给(food)与营养
    状况评价(appraise),相关系数(Correlation Coefficients)选择K endall’s tau-b。
    4) 单击【Continue】..【O K】,得到结果。 
    N onpara m etric Correlations,非参数K endall 等级相关分析
    Correlations 
    辅助食品供给
    (food) 
    营养状况评价
    (appraise) 
    K endall’s tau-b 辅助食品供给(food) Correlation Coefficient 
    Sig.(2-tailed) N 
    1.000 . 
    116 
    .229 * .011 
    116 
    营养状况评价(appraise) Correlation Coefficient 
    Sig.(2-tailed) N 
    .229 * .011 
    116 
    1.000 . 
    116 
    * . Correlation is significant at the .05 level(2-tailed) 
    肯德尔( K endall)等级相关系数tau-b = 0.229, P < 0.05。也就是说,辅助食品(food)供给
    与营养状况评价(appraise)有相关关系。
    四格表资料的相关分析是2 × k 列联表( Contingency T able) 的特例, 也可用肯德尔
    ( Kendall)等级相关分析方法。
    类似地, R(行, Ro w s)× C(列, Colu m ns)表资料的相关分析,也可以按此方法得到相应的
    结果。
    11.1.4 斯皮尔曼( S pearm an)等级相关分析
    例11-4 就表11-3 所给资料分析血小板和出血症的关系。试分析上述资料有无相关关
    系。(倪宗瓒.卫生统计学.第4 版,北京:人民卫生出版社,2001:287) 
    表11-3 血小板数与出血症资料
    病例号1 2 3 4 5 6 7 8 9 10 11 12 血小板数(10 9/ L) 120 130 160 310 420 540 740 1060 1260 1230 1440 2000 出血症状+ + + + + + - - + + - - - - + + - 
    由于出血症状是等级资料,应该先对出血症状编成等级,然后再做等级相关分析。
    1) 建立数据文件spearm an.sav,格式如图11-8 所示
    2) 选择【A nalyze】..【Correlate】..【Bivariate】, 得到如图11-9 所示对话框。相关系数
    ( Correlation Coefficients)选择Spearm an。
    3) 单击【O ptions】,得到如图11-10 所示对话框。
    4) 单击【Continue】..【O K】,得到结果。
    第11 章 相关分析207
     
    图11-8 数据文件spear man.sav 图11-9 Bivariate Correlations(双变量相关分析)对话框
    图11-10 Bivariate Correlations: O ptions(选择项)对话框 
    N onpara m etric Correlations,非参数Spear m an 等级相关分析
    描述性统计量
    Descriptive Statistics 
    M ean 
    Std. 
    D eviation 
    N 
    X1 784.17 609.567 12 X2 2.25 1.485 12 Correlations 
    X 1 X 2 X 1 Pearson Correlation 1 - .450 Sig.(2-tailed) . .142 Su m of Squares and 
    Cross-products 
    4087291.7 - 4482.500 Covariance 371571.97 - 407.500 N 12 12 X 2 Pearson Correlation - .450 1 Sig.(2-tailed) .142 . Su m of Squares and 
    Cross-products 
    - 4482.500 24.250 Covariance - 407.500 2.205 N 12 12 208 第2 篇 统计分析
     
    N onpara m etric Correlations,非参数相关分析
    Correlations 
    X1 X 2 Spear m an’s rho X 1 Correlation Coefficient Sig.(2-tailed) N 
    1.000 . 
    12 
    - .506 .093 
    12 
    X 2 Correlation Coefficient Sig.(2-tailed) N 
    - .506 .093 
    12 
    1.000 . 
    12 
    斯皮尔曼( Spear m an) 等级相关系数( Correlation Coefficients), rs = - 0. 506, P ( Sig. = 
    0. 093) > 0.05。表明,尚不能认为血小板( x1)和出血症( x2 )有相关关系。
    11.2 偏相关分析
    偏相关分析(Partial Correlations)用以计算描述在控制其他变量的影响下,两变量间线性
    关系的偏相关系数( Partial Correlation Coefficients)。此模块还计算零阶相关系数(即简单相关
    系数,皮尔逊相关系数)矩阵以及矩阵所产生的偏相关系数、自由度等。
    例11-5 某地29 名13 岁男童身高( x1,c m ),体重( x2,kg)及肺活量( y, L)的实测数据文
    件是partial.sav。试计算其简单相关系数,当体重( x2)被控制(即固定)时,计算身高( x1 )与肺
    活量( y)的偏相关系数r3 1. 2 ,并作假设检验。(杨树勤.卫生统计学.第2 版,北京:人民卫生出
    版社,1986:125) 
    1) 建立数据文件partial.sav。
    2) 选用【A nalyze】..【Correlate】..【Partial】,得到如图11-11 所示对话框。
    图11-11 Partial Correlations(偏相关分析)对话框
    引入偏相关分析( Partial Correlations)的变量( V ariables)是x1, y。控制变量( Controlling 
    for)是x2 。显著性检验( Test of Significance)可进行如下设置。
    .. T w o-tailed,双侧显著性检验,默认格式。
    .. O ne-tailed,单侧显著性检验。
    第11 章 相关分析209
     
    .. Display actual significance level,显示实际显著性水平。
    3) 单击【O ptions】,得到如图11-12 所示对话框。
    图11-12 Partial Correlations: O ptions(偏相关分析选择项)对话框
    Partial Correlations: O ptions(偏相关分析的选择项)对话框有如下选项。
    .. Statistics,统计量。☆ M eans and standard deviations,显示每一个变量的均数与标准差。
    ☆ Zero-order correlations,零阶相关系数,即显示所有变量(含控制变量)的简单相关系
    数。
    .. M issing V alues,缺失值的处理方法。☆ E xclude cases pairwise,成对删除缺失值。
    ☆ E xclude cases listwise,成列删除缺失值。
    4) 单击【Continue】..【O K】,得到运行结果。 
    V ariable M ean Standard Dev Cases X1 152.5759 8.3622 29 
    Y 2.2069 .4486 29 
    X2 37.1276 5.5328 29 
    - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - - 
    Zero Order Partials 
    X1 Y X2 
    X1 1.0000 .5884 .7421 
    ( 0) ( 27) ( 27) 
    P = . P = .001 P = .000 
    Y .5884 1.0000 .7362 
    ( 27) ( 0) ( 27) 
    P = .001 P = . P = .000 
    X2 .7421 .7362 1.0000 
    ( 27) ( 27) ( 0) 
    P = .000 P = .000 P = . 
    ( Coefficient/ ( D .F.)/ 2 - tailed Significance) 
    ″. ″is printed if a coefficient cannot be co m puted 
    - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - - Controlling for.. X2 
    X1 Y 
    210 第2 篇 统计分析
     
    X1 1.0000 .0926 
    ( 0) ( 26) 
    P = . P = .639 
    Y .0926 1.0000 
    ( 26) ( 0) 
    P = .639 P = . 
    ( Coefficient/ ( D .F.)/ 2 - tailed Significance) 
    ″.″is printed if a coefficient cannot be com puted 
    结果分析
    (1) 变量平均数标准差例数
    x1 152.5759 8.3622 29 y 2.2069 0.4486 29 x2 37.1276 5.5328 29 (2) 简单相关系数: r1 2 = 0. 5884 P < 0.01 r3 1 = 0. 7421 P < 0.001 
    r3 2 = 0. 7362 P < 0. 001 
    (3) 控制体重( x2)时,身高( x1)与肺活量( y)的偏相关系数: 
    r1 2 . 3 = 0. 0926 P(Sig. = 0.639) > 0.50 
    可见,控制体重( x2)时,身高( x1)与肺活量( y)的偏相关系数无显著性意义。
    11.3 距离相关分析
    距离相关分析( Distances) 用以计算个案( Cases) 或变量( V ariables) 之间距离不一致性
    ( Dissimilarities) 或相似性( Similarities) 的测度。这种测度可以是欧几里德距离( E uclidean 
    Distance)等。
    11.3.1 变量距离相关分析
    例11-6 已知我国28 个省市(自治区)19~22 岁年龄组城市学生(汉族,男性)身体形态
    指标:身高( x1,cm ),坐高( x2 ,cm ),体重( x3, kg),胸围( x4 ,cm ),肩宽( x5,c m )与骨盆宽( x6, 
    c m )的数据(见图11-13)。试求28 个省市(自治区)学生身体形态指标(变量) x1, x2, x3 , x4 之
    间( Betw een V ariable)距离相似性(Similarities)的皮尔逊相关(Pearson correlation)测度。
    1) 建立数据文件body1.dbf。
    2) 选择【A nalyze】..【Correlate】..【Distances】,得到如图11-14 所示对话框。
    Distances(距离相关分析)对话框的变量( Variables)是x1 ~ x4 。还可进行如下设置。
    .. Label Cases by,当分析个案间的距离时,指明个案的标记,增加可读性。.. Co m pute Distances,计算距离。第11 章 相关分析211
     
    图11-13 数据文件body1.dbf(部分) 
    图11-14 Distances(距离相关分析)对话框 
    ☆ Betw een cases,个案之间的距离,即计算个案之间的距离系数。
    ☆ Betw een variables,变量之间的距离,即计算变量之间的距离系数。
    .. M easure,测度。☆ Dissimilarities,不一致性测度, 或不相似性测度, 其数值越大表示距离越远。☆ Similarities,相似性测度,其数值越大表示距离越近。如果在M easure 中选择Dissimilaries,然后单击【M easures】, 可在Distances: Dissimilarity 
    M easures(距离不一致性测度)中进行如下设置。
    .. Interval,区间数据。☆ Euclidean distance,欧几里德距离。
    ☆ Squared E uclidean distance,欧几里德距离平方。
    ☆ Chebychev,切比雪夫距离。
    ☆ Block,区组距离。
    ☆ Minko w ski,闵可夫斯基距离。可选择Po wer(自乘的幂次), Root(开方的根次)。
    ☆ Custo mized,常用距离。可选择Po w er(自乘的幂次), Root(开方的根次)。
    .. Count,计数数据。☆ Chi-square m easure,χ2 
    测度。
    212 第2 篇 统计分析
     
    第 11 章 相 关 分 析 213 
    
    .... Binary,二值数据。 
    ☆Euclidean distance,欧几里德距离。 
    ☆Squared Euclidean distance,欧几里德距离平方。 
    ☆Size difference,大小不同的测度。 
    ☆Pattern difference,模式差异的测度。 
    ☆Variance,方差测度。 
    ☆Shape,形状测度。 
    ☆Lanceand Wil
    lliams,兰斯-威廉斯测度。
    
    
    如果在.. Measure中,选择Similarities,然后单击【Measures】,可在Distances: SimilarityMeasures(距离相似性测度)中进行如下设置。
    “测度”( Measure)中提供以下选项。
    .... Interval,区间数据。.. 
    ☆Pearson correlation,皮尔逊相关测度。
    
    .... Binary,二值数据。 
    ☆Russelland Rao,罗素-劳二项点积。 
    ☆Simple matching,简单匹配相似性测度。 
    ☆Jaccard,杰卡德相似性系数。 
    ☆Dice,戴斯相似性系数。 
    ☆Rogersand Tanimoto,罗尔斯-塔尼莫涛相似性测度。 
    ☆Sokaland Sneath 1,素卡尔-斯尼兹(1)相似性测度。 
    ☆Sokaland Sneath 2,素卡尔-斯尼兹(2)相似性测度。 
    ☆Sokaland Sneath 3,素卡尔-斯尼兹(3)相似性测度。 
    ☆Sokaland Sneath 4,素卡尔-斯尼兹(4)相似性测度。 
    ☆Sokaland Sneath 5,素卡尔-斯尼兹(5)相似性测度。 
    ☆Kulczynski1,坎尔兹斯基(1)相似性测度。 
    ☆Kulczynski2,坎尔兹斯基(2)相似性测度。 
    ☆Hamann,哈曼相似性测度。 
    ☆Lambda,λ相似性测度。 
    ☆.. Anderberg’sD,安第柏格.. D相似性测度。 
    ☆.. Yule’s Y,尤尔.. Y综合系数。 
    ☆.. Yule’s Q,尤尔.. Q综合系数。 
    ☆Ochiai,欧奇亚相似性测度。 
    ☆Phi4-pointcorrelation,菲.. 4点相关系数。 
    ☆Dispersion,分配相似性测度。
    
    
    .... Transform Values,转换值。 
    ☆Standardize,标准化。 
    ☆None,不进行标准化。 
    ☆Z Scores,Z分数。 
    ☆.. Range -1to1,其值在.. -1~1之间的标准化。 
    ☆Range0to1,其值在0,1之间的标准化。 
    
    
     
    ☆ M axim u m m agnitude of 1,标准化的最大值是1。
    ☆ M ean of 1,标准化的均数是1。
    ☆ Standard deviation of 1,标准化的标准差是1。
    .. Transfor m M easures,转换测度。☆ A bsolute values,绝对值。
    ☆ Change sign,改变符号。
    ☆ Rescale to 0 - 1 range,改变到0,1 范围。
    标准化(Standardize)的对象如下。
    .. By V ariable,对变量进行标准化。
    .. By Case,对个案进行标准化。
    本例选择Betw een V ariables(变量间),Similarities(相似性测度)。默认的测度( M easures) 
    是: 皮尔逊相关( Pearson correlation)测度(见图11-14)。
    3) 单击【Continue】..【O K】,得到结果 
    Proximities,邻近分析
    个案处理综合分析
    Case Processing Su m m ary 
    Cases 
    Valid Missing T otal 
    N Percent N Percent N Percent 
    28 100.0 % 0 .0 % 28 100.0 % 邻近矩阵
    Proximity M atrix 
    Correlation between Vectors of Values 
    X 1 X 2 X3 X4 X 1 .000 .956 .854 .414 X 2 .956 .000 .806 .406 X 3 .854 .806 .000 .533 X 4 .414 .406 .533 .000 T his is a similarity m atrix 
    这个结果是一个相似性矩阵, 即皮尔逊( Pearson)相关系数矩阵。可见,皮尔逊相关分析
    是距离相关分析( Distances) 的特殊情况。其是对变量( V ariables) x1, x2, x3 , x4 计算距离
    ( Co m pute Distances)选择“变量间( Betw een V ariables)”进行的相似性测度( Similarities),测度
    ( M easures)是皮尔逊相关(Pearson Correlation)的结果, 其数值越大者距离越近。
    相关系数最大是rx 1 * x2 = 0. 956, 其次是rx 1 * x 3 = 0. 854, 再次是rx2 * x3 = 0. 803, 等等。
    其亲密程度由密到疏。
    214 第2 篇 统计分析
     
    第 11 章 相 关 分 析 215 
    
    11.3.2个案距离相关分析
    例 
    11 
    -7在数据文件Body1.dbf中,如果变量(Variables)选择.. x 1,x2,x3,x4,x5,x6,而
    个案选择第5~10个(共计6个个案),计算距离(Compute Distances)选择“个案间(Between 
    cases)”,测度(Measures)选择“不一致性测度(Dissimilarities)”,测度(Measures)选择.. “欧几里
    德(Euclidean distance)”,试进行个案距离相关分析。
    
    1)从.. 28个个案中,选择满足条件的.. 6个个案。单击【Data】..【Select Cases】,得到如图.. 1115
    所示对话框,在其中选择【Based on time or case range】。
    2)单击【Range】,得到如图11-16所示对话框。
    图11 -15SelectCases(选择个案)对话框图11 -16SelectCases:Range(选择个案范围)对话框
    
    观察值(Observation)的第1个(First Case)个案是5,最后一个个案(LastCase)是10。
    
    3)单击【Continue】,得到如图.. 11-17所示对话框。单击【OK】,完成选择满足条件的个案
    设置。
    图.. 11 -17Select Cases(选择个案)对话框
    
    4)进行个案距离相关分析。单击【Analyze】..【Correlate】..【Distances】,得到如图.. 11-18
    所示对话框。
    在图11-18中,选择Betweencases(个案间),测度(Measures)选择.. Dissimilarities(不一致
    性测度),默认是.. Euclidean distance(欧几里德距离)。.. 
    
     
    图11-18 Distances(距离)对话框 
    2) 单击【O K】,得到结果。 
    Proximities 
    Case Processing Su m m ary 
    Cases 
    Valid Missing T otal 
    N Percent N Percent N Percent 
    6 100.0 % 0 .0 % 6 100.0 % Proximity M atrix 
    Euclidean Distance 
    5 6 7 8 9 10 5 .000 1.224 1.496 1.501 1.462 1.197 6 1.224 .000 .989 .938 1.447 .987 7 1.496 .989 .000 1.488 2.147 .611 8 1.501 .938 1.488 .000 1.457 1.667 9 1.462 1.447 2.147 1.457 .000 2.103 10 1.197 .987 .611 1.667 2.103 .000 T his is a dissimilarity m atrix 
    结果是个案间的距离,其数值越大者距离越远,数值越小距离越近。
    216 第2 篇 统计分析
     
    第 13 章 分 类 分 析
    
    
    分类学是科学研究的重要方法之一,数值分类学更有极广泛的应用。分类分析(Classify)
    包括逐步聚类分析( K-Means Cluster ),系统聚类分析( Hierarchical Cluster )和判别分析(
    Discriminant )等多元统计学方法。.. 
    
    13. 1逐步聚类分析
    逐步聚类分析(K-MeansCluster)又可以称快速聚类分析( Quick Cluster)或动态聚类分
    析(Dynamic Cluster),它可以有效地处理多变量大样本的样品聚类分析(Q型聚类分析)而又
    不占太多的内存空间。用户可以事先规定将资料聚成两类或三类,输出结果会自动给出每个
    样品加以所聚类的标记,从而可以对每类样品进一步分析。
    
    例 
    13 
    -1已调查.. 97名幼儿性别(x 2),月龄(x 3),体重(x 4,kg),身高(x 5,cm),坐高(x 6,
    cm),胸围(x 7,cm),头围( x 8,cm),左眼视力( x 9),右眼视力( x 10)与年龄(age)等生长发育数
    据,并已建立数据文件child .sav,试对.. x 3~x10,age进行样品聚类分析。
    
    1)调用数据文件.. child.sav。
    2)选择【Analyze】..【Classify】..【K-MeansCluster】,得到如图13-1所示对话框。
    图13 -1 K-MeansClusterAnalsysis(逐步聚类分析)对话框
    
    逐步聚类分析(K-Means Cluster Analysis)的变量(Variables),本例是x 3~x10,age。标识
    
    个案(Label Cases by),本例未选用。聚类的数目(Number of Clusters),本例是.. 3(类)。
    聚类方法( Method)可以进行如下选择。
    .... Iterate and Classify,迭代与分类。
    .... Classify only,仅仅是分类。
    
    3)单击【Iterate】,得到如图.. 13-2所示对话框。
    最大迭代次数(Maximum Iterations),本例取20次。收敛准则(ConvergenceCriterion),本
     
    第13章分类分析295
    
    图13 -2 K-MeansClusterAnalysis:Iterate(迭代)对话框
    例是0.02。Userunning means(使用运行的均值),本例未选择。
    
    4)单击【Continue】..【Save】,得到如图.. 13-3所示对话框。
    图13 -3 K-MeansCluster:Save New Variables(储存新的变量)对话框
    
    Save New Variables(储存新的变量)对话框有如下选项。
    .... Cluster membership,聚类成员。
    .... Distancefrom clustercenter,到聚类中心的距离。
    
    5)单击【Continue】..【Options】,得到如图13-4所示对话框。
    图13 -4 K-MeansClusterAnalysisOptions(选择项)对话框
    
    Options(选择项)对话框中的统计量(Statistics)有如下选项。
    .... Initialclustercenters,初始聚类中心。
    .... A N O V A table,方差分析表。
    .... Clusterinformationforeachcase,每个个案(样品)的聚类信息。
    缺失值(Missing Values)的处理方法有两个选项。
    .... Excludecaseslistwise,删除全部含有缺失值的个案,此为默认格式。
    .... Excludecasespairwise,成对删除含有缺失值的个案。
    
    6)单击【Continue】..【O K】,得到结果。.. 
     
    Q uick Cluster,快速聚类分析
    初始聚类中心
    Initial Cluster Centers 
    Cluster 
    1 2 3 月龄(x3) 64 68 64 体重(x4, kg) 13. 6 16. 3 19. 9 身高(x5,cm ) 106. 8 109. 0 110. 2 坐高(x6,cm ) 61. 5 60. 2 63. 0 胸围(x7,cm ) 46. 0 52. 5 94. 0 头围(x8,cm ) 47. 0 . 0 49. 8 左眼视力(x9) 1. 5 1. 2 . 6 右眼视力(x10) 1. 2 1. 2 . 6 年龄(age) 6 6 6 迭代过程
    Iteration Historya 
    Iteration 
    Change in Cluster Centers 
    1 2 3 1 9. 788 . 000 16. 234 2 . 000 . 000 . 000 a. Convergence achieved due to no or s mall distance change. T he maxim u m distance by w hich and center has changed is. 000. T he current iteration is 2. T he minim u m distance betw een initial 
    centers is 47. 761 
    聚类成员
    Cluster M e m bership 
    Case N u m ber Cluster Distance 
    1 1 3. 151 2 1 11. 608 3 1 5. 842 4 1 6. 737 5 1 7. 531 6 1 7. 179 7 1 5. 917 8 1 2. 788 9 1 3. 998 10 1 28. 031 11 1 11. 049 296 第2 篇 统计分析
     
    续表
    Case N u m ber Cluster Distance 
    12 1 6. 114 13 1 9. 063 14 1 4. 321 15 1 12. 391 16 1 14. 601 17 3 16. 234 18 1 5. 060 19 1 5. 635 20 1 7. 641 21 1 4. 222 22 1 4. 181 23 1 2. 552 24 1 6. 774 25 1 9. 989 26 1 6. 650 27 1 4. 475 28 1 11. 241 29 1 11. 218 30 1 3. 253 31 1 5. 123 32 1 6. 981 33 1 12. 748 34 1 13. 194 35 1 20. 231 36 1 17. 247 37 1 11. 194 38 1 17. 671 39 1 13. 982 40 1 15. 853 41 1 15. 749 42 1 12. 040 43 1 12. 687 44 1 2. 638 45 1 8. 548 46 1 8. 115 47 1 15. 179 48 1 14. 639 49 1 11. 094 50 1 8. 740 51 1 8. 948 52 1 8. 733 53 1 7. 234 54 1 8. 747 55 1 8. 193 第13 章 分类分析297
     
    续表
    Case N u m ber Cluster Distance 
    56 1 4. 962 57 1 20. 699 58 1 15. 987 59 1 13. 910 60 1 12. 269 61 1 12. 052 62 1 11. 377 63 1 11. 063 64 1 15. 876 65 1 12. 006 66 1 9. 759 67 1 2. 424 68 1 2. 395 69 1 3. 636 70 2 . 000 71 1 11. 406 72 1 2. 579 73 1 7. 755 74 1 8. 965 75 1 9. 788 76 1 7. 980 77 1 4. 654 78 1 4. 136 79 1 5. 024 80 1 4. 260 81 1 4. 788 82 1 3. 228 83 1 13. 050 84 1 3. 595 85 1 11. 657 86 1 12. 580 87 1 4. 674 88 1 3. 173 89 1 9. 256 90 1 19. 490 91 3 16. 234 92 1 14. 458 93 1 19. 541 94 1 15. 142 95 1 14. 027 96 1 15. 561 97 1 298 第2 篇 统计分析
     
    最终聚类中心
    Final Cluster Centers 
    Cluster 
    1 2 3 月龄(x3) 67 68 71 体重(x4, kg) 18. 2 16. 3 25. 0 身高(x5,cm ) 109. 8 109. 0 115. 1 坐高(x6,cm ) 61. 9 60. 2 64. 1 胸围(x7,cm ) 53. 2 52. 5 81. 3 头围(x8,cm ) 49. 4 . 0 50. 7 左眼视力(x9) 1. 0 1. 2 1. 1 右眼视力(x10) 1. 0 1. 2 1. 1 年龄(age) 6 6 7 最终聚类中心两两之间的距离
    Distances betw een Final Cluster Centers 
    Cluster 1 2 3 1 49. 514 29. 748 2 49. 514 59. 398 3 29. 748 59. 398 方差分析表
    A N O V A 
    Cluster Error 
    M ean Square df M ean Square df 
    F Sig. 月龄(x3) 17. 522 2 45. 082 93 . 389 . 679 体重(x4, kg) 47. 226 2 8. 237 93 5. 733 . 004 身高(x5,c m ) 28. 022 2 35. 723 93 . 784 . 459 坐高(x6,c m ) 6. 062 2 9. 063 93 . 669 . 515 胸围(x7,c m ) 771. 120 2 12. 162 93 63. 404 . 000 头围(x8,c m ) 1211. 411 2 11. 806 93 102. 612 . 000 左眼视力(x9) . 013 2 . 088 93 . 151 . 860 右眼视力(x10) . 014 2 . 088 93 . 164 . 849 年龄(age) . 157 2 . 467 93 . 337 . 715 T he F tests should be used only for descriptive purposes because the clusters have been chosen to m aximize 
    the differences am ong cases in different clusters. T he observed significance levels are not corrected for this 
    and thus cannot be interpreted as tests of the hypothesis that the cluster m eans are equal. 
    第13 章 分类分析299
     
    每一类的个案数
    N u m ber of Cases in each Cluster 
    Cluster 1 93. 000 2 1. 000 3 2. 000 V alid 96. 000 Missing 1. 000 结果分析
    (1) 本例是对97 名幼儿的9 个指标(月龄、体重、身高、坐高、胸围、头围、左眼视力、右眼
    视力和年龄)进行样品的聚类,聚类数( N u m bers of Clusters)指定为3 类。
    (2) 本例的初始聚类中心( Initial Cluster Centers )与最终聚类中心( Final Cluster Centers)
    是不相同的。
    (3) 最终聚类中心间的距离( Distances Betw een Final Cluster Centers),即3 种聚类中心两
    两间的欧氏距离。例如,第1 类到第2 类的距离是49. 514,第1 类到第3 类的距离是29. 748, 
    第2 类到第3 类的距离是59. 398。
    (4) 方差分析( A nalysis of V ariance )是显示聚类间的变异性,即对各变量进行单因素方
    差分析。
    (5) 每一类中的个案数( N u m bers of Cases in Each Cluster),可见2 例(即第17 例、91 例) 
    被聚到第3 类中,1 例(即第70 例)被聚到第2 类中,其余93 例被聚到第1 类中。
    (6) 最后显示每一类的个案数。
    13. 2 系统聚类分析
    系统聚类分析又称集群分析,它是按“ 物以类聚”原则研究事物分类的一种多元统计分析
    方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或
    亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图( D endrogra m )或冰柱
    图(Icicle)。
    聚类分析用以对观察指标(变量, V ariables)聚类,称为指标聚类分析,或称R 型聚类分析。
    对样品(个案, Cases)进行聚类,称为样品聚类分析,或称Q 型聚类分析。
    SP SS/ W in 的系统聚类分析( Hierarchical Cluster),或称分层聚类分析。结果输出有用户
    选定的计算测度( M easure)的统计量(Statistics)与聚类方法( M ethod)所连接的图形( Plots),如
    垂直冰柱图( Vicicle),水平冰柱图( Hicicle),或树状结构图( Dendrogra m )等。
    聚类分析根据用户选用不同的聚类方法( M ethod),不同的测度( M easure),是否标准化, 
    不同的连接图形( Plots),其分类的结果是不尽相同的。
    13. 2. 1 样品( Q 型)聚类分析
    例13-2 欲按能耗、糖耗将运动项目分类,以便针对不同能耗、糖耗的运动提供不同的膳
    食,使运动员既能得到能量的补充,又不会造成多余的体脂堆积。某单位对上海划船队6 名
    队员进行了能量代谢测定,得到13 个项目的平均数据见表13-1。试进行样品( Q 型)系统聚类
    300 第2 篇 统计分析
     
    分析。(金丕焕.医用统计方法.上海:上海医科大学出版社,1993:294) 
    表13-1 能量代谢测定数据
    运动项目y1( 
  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 TXT格式下载
  • 您可能感兴趣的
  • excel电子表格文件  excel表格文件  excel表格文件加密  excel文档表格  excel2003电子表格  excel电子表格下载  excel进销存电子表格  2010版excel电子表格  excel电子表格的制作