在進(jìn)行數(shù)據(jù)分析的時(shí)候除了有缺失值之外,還可能遇到異常值和重復(fù)值。
#### 異常值
異常值:
> 偏離正常范圍的值,不是錯(cuò)誤值。
> 出現(xiàn)的頻率很低,但是會(huì)對(duì)數(shù)據(jù)分析造成偏差
常采用蓋帽法或者數(shù)據(jù)離散化進(jìn)行處理
**1、異常值的判斷**
也叫n個(gè)標(biāo)準(zhǔn)差法,**均值±n個(gè)標(biāo)準(zhǔn)差內(nèi)的數(shù)據(jù)叫做正常值**,一般為2-3個(gè)標(biāo)準(zhǔn)差
計(jì)算均值和標(biāo)準(zhǔn)差
```
import numpy as np
import pandas as pd
data = pd.read_excel('university.xlsx')
jz = data['報(bào)名人數(shù)'].mean()
print(jz)
bzc = data['報(bào)名人數(shù)'].std()
print(bzc)
```
結(jié)果:
> ```
> 1525.2222222222222
> 4975.899109579891
> ```
搭配any(),查看是否有超過(guò)上下限的數(shù)據(jù),這種數(shù)據(jù)為異常值
```
top = data['報(bào)名人數(shù)'].mean() + 2 * data['報(bào)名人數(shù)'].std()
bottom = data['報(bào)名人數(shù)'].mean() - 2 * data['報(bào)名人數(shù)'].std()
```
結(jié)果:
> ```
> 11477.020441382005
> -8426.57599693756
> ```
是否有超過(guò)下限的情況
```
any(data.報(bào)名人數(shù) < bottom) # 結(jié)果:False
```
是否有超過(guò)上限的情況
```
any(data.報(bào)名人數(shù) > top) # 結(jié)果: True
```
查看【報(bào)名人數(shù)】為正常值的數(shù)據(jù)
```
data[data['報(bào)名人數(shù)'].between(bottom,top)]
```
可以看出少了索引為4和12的數(shù)據(jù),該數(shù)據(jù)報(bào)名人數(shù)分別為17388和20000,超出上限11477.020441382005
也可以畫個(gè)直方圖看一下數(shù)據(jù)的分布情況,感受一下:
```
data.報(bào)名人數(shù).plot(kind ='hist')
```
**箱線法**
> 上四分位數(shù):取3/4位置的數(shù)
> 下四分位數(shù):取1/4位置的數(shù)
> 分位差 = 上四分位數(shù)- 下四分位數(shù)
>
> 上界 = 上四分位數(shù) + 1.5*分位差
> 下界= 下四分位數(shù) - 1.5*分位差
**上界 、下界范圍之內(nèi)的數(shù)據(jù)叫做正常值,范圍之外的叫做異常值。**
```
# 下四分位數(shù)
Q1 = data.報(bào)名人數(shù).quantile(0.25)
print(Q1)
# 上四分位數(shù)
Q3 =data.報(bào)名人數(shù).quantile(0.75)
print(Q3)
# 分位差
IQR = Q3 - Q1
print(IQR)
# 上界
print(Q3 + 1.5 * IQR)
# 下界
print(Q1 - 1.5 * IQR)
# 是否有超出上界的數(shù)據(jù)
print(any(data.報(bào)名人數(shù) > Q3 + 1.5 * IQR))
# 是否有低于下界的數(shù)據(jù)
print(any(data.報(bào)名人數(shù) < Q1 - 1.5 * IQR))
```
結(jié)果:
> ```
> 134.5
> 206.5
> 72.0
> 314.5
> 26.5
> True
> True
> ```
箱線圖看一下:
```
data.報(bào)名人數(shù).plot(kind = 'box')
```
說(shuō)明有超出上限和下限的值
**2、異常值的處理**
方法一:
> 用小于上限最大值去替換超出上限的異常值
> 用大于下限最小值去替換低于下限的異常值
數(shù)據(jù)準(zhǔn)備:
(新增一列【new_報(bào)名人數(shù)】數(shù)據(jù),是為了替換異常值后做對(duì)比)
```
data['new_報(bào)名人數(shù)'] = data['報(bào)名人數(shù)']
```
計(jì)算小于上限的最大值,作為替換值
```
# 計(jì)算小于上限的最大值,作為替換值
UL = Q3 + 1.5 * IQR
# 低于上限的最大值
replace_value = data.new_報(bào)名人數(shù)[data.new_報(bào)名人數(shù) < UL].max()
# 用替換值替換超出上限的數(shù)據(jù):
data.loc[data.new_報(bào)名人數(shù)>UL,'new_報(bào)名人數(shù)'] = replace_value
data
```
最終:
方法二:
> 低于百分之一分位數(shù)的數(shù)據(jù)用百分之一分位數(shù)替換
> 高于百分之九十九分位數(shù)的數(shù)據(jù)用百分之九十九分位數(shù)替換
計(jì)算百分之一分位數(shù)、百分之九十九分位數(shù)
```
# 百分之一分位數(shù)
P1=data.new_報(bào)名人數(shù).quantile(0.01)
# 百分之九十九分位數(shù)
P99=data.new_報(bào)名人數(shù).quantile(0.99)
```
進(jìn)行替換
```
data.loc[data['new_報(bào)名人數(shù)']>P99,'new_報(bào)名人數(shù)'] = P99
data.loc[data['new_報(bào)名人數(shù)']<P1,'new_報(bào)名人數(shù)'] = P1
```
#### 重復(fù)值
一般保留第一條重復(fù)數(shù)據(jù),對(duì)其他重復(fù)數(shù)據(jù)進(jìn)行移除。
> `判斷重復(fù)值 df.duplicated`
>
> df.duplicated(subset=None, keep='first')
>
> 參數(shù)說(shuō)明:
> subset:列標(biāo)簽,默認(rèn)使用所有列,若只考慮用某些列來(lái)識(shí)別重復(fù)項(xiàng),可指定列
> keep,默認(rèn)first,保留重復(fù)值的第一項(xiàng),也可以指定last,保留最后一項(xiàng)重復(fù)值數(shù)據(jù)
>
> 返回的是一個(gè)視圖
```
data.duplicated()
```
True為重復(fù)數(shù)據(jù)
取出重復(fù)值
```
data[data.duplicated()]
```
結(jié)果:
按照指定列判斷重復(fù)數(shù)據(jù)
```
data[data.duplicated(subset=['學(xué)院','報(bào)名人數(shù)'])]
```
**`刪除重復(fù)數(shù)據(jù) df.drop_duplicates`**
一般有重復(fù)數(shù)據(jù)后可以刪除
> df.drop_duplicates(subset=None, keep='first', inplace=False)
>
> subset:默認(rèn)全部列,可以指定特定列來(lái)判斷重復(fù)數(shù)據(jù)
> keep:保留重復(fù)數(shù)據(jù)的第一條數(shù)據(jù)
> inplace:是否就地操作,默認(rèn)False,返回一個(gè)視圖
> True,就地操作,直接在原數(shù)組數(shù)據(jù)上刪除重復(fù)值
```
data.drop_duplicates(inplace=True)
data
```
刪除后無(wú)重復(fù)數(shù)據(jù)。