第三节 数据分析与处理
一、数据修约规则
1.有效数字
有效数字是指能够实际测量到的数字。有效数字由其前面所有的准确数字和最后一位估计的可疑数字组成,每一位数字都为有效数字。例如用滴定管进行滴定操作,滴定管的最小刻度是0.1mL,如果滴定分析中用去标准溶液的体积为15.35mL,前三位15.3是从滴定管的刻度上直接读出来的,而第四位5是估读出来的。显然,前三位是准确数字,第四位不太准确,称作可疑数字,但这四位都是有效数字。
有效数字与通常数学上一般数字的概念不同。一般数字仅反映数值的大小,而有效数字既反映测量数值的大小,又反映一个测量数值的准确程度。如果用分析天平称量药品时,称量的药品质量为1.5643g,是5位有效数字。它不仅说明了试样的质量,也表明了最后一位“3”是可疑的。有效数字的位数说明了仪器的种类和精密程度。例如,用“g”作单位,分析天平可以精确到小数点后第四位数字,而用台秤只能精确到小数点后第二位数字。
2.数字修约规则
在数据传递过程中,遇到测量值的有效数字位数不同时,必须舍弃一些多余的数字,以便于运算,这种舍弃多余数字的过程称为“数字修约过程”。有效数字修约应遵守《数值修约规则与极限数值的表示和判定》(GB/T 8170—2008)的有关规定,可总结为:四舍六入五考虑,五后非零则进一,五后皆零视奇偶,五前为偶应舍去,五前为奇则进一。数字修约时,只允许对原测量值一次修约到所要的位数,不能分次修约,例如53.4546修约为4位数时,应该为53.45,不可以先修约为53.455,再修约为53.46。
3.有效数字运算法则
各种测量、计算的数据需要修约时,应遵守下列规则。
(1)加减法运算规则
加减法中,误差按绝对误差的方式传递,运算结果的有效数字位数应与各数据中小数点后位数最小的相同。运算时,可先比小数点后位数最少的数据多保留一位小数,进行加减,然后按上述规则修约。
(2)乘除法
在乘除法中,有效数字的位数应与各数中相对误差最大的数据位数相同,即根据有效数字位数最少的数来进行修约,与小数点的位置无关。
(3)乘方和开方
一个数据乘方和开方的结果,其有效数字的位数与原数据的有效数字位数相同。
(4)对数
对数的有效数字位数仅取决于小数部分(尾数)数字的位数,整数部分只代表该数字的方次。
另外,求四个或四个以上测量数据的平均值时,其结果的有效数字位数增加一位;误差和偏差的有效数字通常只取一位,测定次数很多时,方可取两位,并且最多取两位,但在运算过程中先不修约,最后修约到要求的位数。
二、误差分析
监测中所得到的许多物理、化学和生物学数据,是描述和评价环境质量的基本依据,因此对数据的准确度有一定的要求。但是,由于分析方法、测量仪器、试剂药品、环境因素以及分析人员主观条件等方面的限制,使得测定结果与真实值不一致,在环境监测中存在误差。
1.误差的分类
误差是分析结果(测量值)与真实值之间的差值。根据误差的性质和来源,可将误差分为系统误差和偶然误差。
(1)系统误差
系统误差又称可测误差、恒定误差,是由分析测量过程中某些恒定因素造成的,系统误差在一定条件下具有重现性,并不因增加测量次数而减少。产生系统误差的原因有:方法误差、仪器误差、试剂误差、恒定的个人误差和环境误差等。系统误差可以通过采取不同的方法,如校准仪器、进行空白实验、对照实验、回收实验、制定标准规程等适当的校正减小或消除。
(2)偶然误差
偶然误差又称随机误差或不可测误差,是由分析测定过程中各种偶然因素造成的。这些偶然因素包括测定时温度的变化、电压的波动、仪器的噪声、分析人员的判断能力等。它们所引起的误差有时小、有时大、有时正、有时负,没有什么规律性,难以发现和控制。在消除系统误差后,在相同条件下多次测量,偶然误差遵从正态分布规律,当测定次数无限多时,偶然误差可以消除。但是,在实际的环境监测分析中,测定次数有限,从而使得偶然误差不可避免。要想减少偶然误差,需要适当增加测定次数。
2.误差的表示方法
(1)绝对误差和相对误差
绝对误差是测量值(x,单一测量值或多次测量的均值)与真实值(xt)之差,绝对误差有正负之分。
绝对误差=x-xt
相对误差指绝对误差与真实值之比(常以百分数表示)
相对误差X=×100%
绝对误差和相对误差均能反映测定结果的准确程度,误差越小越准确。
(2)绝对偏差和相对偏差
绝对偏差(d)是测定值与均值之差,即di=xi-。
相对偏差是绝对偏差与均值之比(常以百分数表示):相对偏差×100%。
(3)标准偏差和相对标准偏差
标准偏差用s表示
相对标准偏差:又称变异系数,是样本标准偏差在样本均值中所占的百分数,记为CV。
CV=×100%
三、监测结果的表述
监测数值反映客观环境的真实值,但真实值很难测定,总体均值可以认为接近真值,然而实际测定的次数是有限的,所以常用有限次的监测数据来反映真实值,其结果表达方式一般有以下几种。
1.用算术平均数()代表集中趋势
测定过程中排除系统误差和过失误差后,只存在随机误差,根据正态分布的原理,限定的次数无限多(n→∞)时的总体均值(μ)应与真值(xt)很接近,但实际只能测定有限次数。因此样本的算术平均值是用集中趋势表达检测结果的最常用方式。
2.用算术平均值和标准偏差表示测定结果的精密度(±s)
算术平均值代表集中趋势,标准偏差表示离散程度。算术平均值代表性的大小与标准偏差的大小有关,即标准偏差大,算术平均值代表性小,反之亦然,所以检测结果常以(±s)表示。
3.用(±s,CV)表示结果
标准偏差大小还与所测均数水平或测量单位有关。不同水平或单位的测量结果之间,其标准偏差是无法进行比较的,而变异系数是相对值,所以在一定范围内用来比较不同水平或单位测定结果之间的变异程度。