一、pd.cut用法
pd.cut()是一個用于將連續(xù)變量轉(zhuǎn)換成離散變量的函數(shù),通俗地說就是將一組數(shù)據(jù)按照一定的規(guī)則自動分成幾段,然后用這幾段來表示原來的數(shù)據(jù)。
二、pd.cut函數(shù)
pd.cut()函數(shù)的基本語法如下:
bins = [bin1, bin2, bin3, ....] pd.cut(data, bins)
其中data為待分割的數(shù)據(jù),bins為分割的規(guī)則。bins可以為數(shù)字,也可以為序列,如果為數(shù)字表示將整個數(shù)列分成幾段,序列則表示每段指定具體的切分節(jié)點(diǎn)。
三、pd.cut函數(shù)判斷區(qū)間
pd.cut()函數(shù)判斷區(qū)間時默認(rèn)是左開右閉,即分段區(qū)間為(left,right]。
四、pd.cut參數(shù)
在pd.cut()函數(shù)中,還有一些參數(shù)可以控制分段的方式,包括:
labels: 分段后每一段的標(biāo)簽。 include_lowest: 是否在最低區(qū)間間隔內(nèi),加入low_edge(最小值-0.1)。 right: 是否將值視為右限,默認(rèn)為True。 precision: 僅對小數(shù)有效,設(shè)定小數(shù)的精度。五、pd.cut左閉右開
控制pd.cut()函數(shù)的左閉右開用參數(shù)right,在pd.cut()函數(shù)中right默認(rèn)為True,即右側(cè)的區(qū)間與前一個區(qū)間相鄰。
六、pd.cut函數(shù)股票
對于股票分組機(jī)制,我們通常需要在大量的指標(biāo)中選擇一些比較重要的數(shù)據(jù),并按照一定的規(guī)則來使每只股票分別處于自己所在的分組,pd.cut()函數(shù)有很好的實用效果。
七、pd.cut設(shè)置bin
pd.cut()中的bin參數(shù)決定了將整個數(shù)列分割成幾個等分點(diǎn),bin參數(shù)可以是一個整數(shù)n,表示將整個數(shù)列等分成n等份。也可以是一個列表,表示用這些桶序列來分割數(shù)據(jù)。
例如,下列代碼將序列s分割成5個等分點(diǎn),生成6個分組:
import pandas as pd import numpy as np s = pd.Series(np.random.randn(100)) s = pd.Series(pd.cut(s, 5)) print(s.value_counts())
輸出為:
(-2.082, -1.336] 22 (-1.336, -0.596] 35 (-0.596, 0.142] 26 (0.142, 0.881] 10 (0.881, 1.621] 7 dtype: int64
八、pd.cut后按順序排列
pd.cut()默認(rèn)會根據(jù)邊緣數(shù)值進(jìn)行排序。如果要根據(jù)切片順序?qū)⒔Y(jié)果排序(而不是按峰值),請將參數(shù)ordered設(shè)置為False。
九、pd.cut什么意思
pd.cut()函數(shù)將連續(xù)變量離散化成無序的 categorical 變量,是數(shù)據(jù)處理中的一個非常實用的函數(shù)。
十、pd.cut函數(shù)給股票分組
了解了pd.cut()函數(shù)的基本用法和相關(guān)參數(shù),我們可以嘗試將其應(yīng)用到股票分組中,分組取權(quán)值的思路大概如下:
按照市值大小將所有股票分為若干組。 每組中按照一定的篇幅分層打分。 最后得到每個股票的大小分?jǐn)?shù)。實現(xiàn)起來,我們根據(jù)市值(net_asset_value)進(jìn)行排序,將股票分為若干組,從而可以實現(xiàn)個股的分類。
示例代碼如下:
import pandas as pd import numpy as np # 準(zhǔn)備數(shù)據(jù) data = pd.read_csv('example.csv') data = data.sort_values('net_asset_value') # 按市值排序 data = data.reset_index(drop=True) # 切分并保存分組 data['groups'] = pd.cut(data.index, bins=10, labels=range(10)) # 打分 data['points'] = np.exp(-(data.groups.astype(int) - 4) ** 2) # 按得分排序并輸出 data = data.sort_values('points', ascending=False) print(data.head())