CRM系統(tǒng):聚類模型在客戶關(guān)系管理中的應(yīng)用以及對(duì)特征提取的探討
3 對(duì)客戶數(shù)據(jù)進(jìn)行聚類分析
把聚類算法應(yīng)用到客戶數(shù)據(jù)上面,通常需要以
下幾個(gè)步驟: ①特征提取; ②歸一化; ③聚類; ④分
析聚類的結(jié)果。表1 是關(guān)于移動(dòng)客戶的數(shù)據(jù)。本節(jié)
將以這個(gè)移動(dòng)數(shù)據(jù)作為例子,討論進(jìn)行聚類分析的
每個(gè)步驟。
311 特征提取
特征屬性提取是應(yīng)用聚類算法,也是其他數(shù)據(jù)
挖掘算法之前的一個(gè)重要的步驟。因?yàn)閿?shù)據(jù)都是從
現(xiàn)實(shí)世界中收集的,不像用于理論分析而人工生成
的數(shù)據(jù)那樣“純凈”。在收集數(shù)據(jù)時(shí),常常會(huì)記錄很
多屬性。但是,在對(duì)數(shù)據(jù)進(jìn)行聚類的時(shí)候,并不是每
一個(gè)屬性都對(duì)聚類分析有用;每一個(gè)對(duì)聚類分析有
用的屬性,他們對(duì)聚類的影響也不是同等的。比如
在表1 中的移動(dòng)數(shù)據(jù),地址對(duì)移動(dòng)客戶消費(fèi)群的劃
分是沒有貢獻(xiàn)的,因?yàn)橐苿?dòng)客戶不會(huì)因?yàn)樗麄兊牡?
理上的相近而產(chǎn)生相似的消費(fèi)行為。像手機(jī)用戶的
年齡和性別,他們對(duì)聚類有一定的貢獻(xiàn),可是他們的
影響不像用戶的通話分鐘數(shù)等消費(fèi)屬性那么直接。
因此,在進(jìn)行聚類分析前,需要把無(wú)關(guān)的屬性去掉,
并給一些影響小的屬性確定一個(gè)較小的權(quán)重,以減
輕它們?cè)诰垲愡^程中,對(duì)距離的貢獻(xiàn)。
另一個(gè)問題是,不同的屬性之間可能會(huì)存在關(guān)
聯(lián),甚至是完全相關(guān)。比如說,一個(gè)客戶的月收入水
平比較低,那么他的話費(fèi)很可能就比較低;而一個(gè)高
收入的客戶,他的話費(fèi)也比較可能偏高。因此月收
入和話費(fèi)這兩個(gè)特征是有一定關(guān)聯(lián)性的。再看一個(gè)
例子,在表格一中,特征“短途分鐘”和“短途話費(fèi)”是
完全相關(guān)的。從前者可以通過某種公式計(jì)算出后者
(在我們的例子中,是“單價(jià)3 短途分鐘= 短途話
費(fèi)”) 常常我們不希望在計(jì)算兩個(gè)客戶之間的距離
時(shí),計(jì)入一個(gè)屬性的雙重或者多重影響。所以我們
需要進(jìn)行特征提取,除去冗余和無(wú)關(guān)的屬性,剩下的
屬性就是用于聚類分析的相關(guān)屬性了。在第四節(jié)
中,我們將會(huì)給出在非監(jiān)督學(xué)習(xí)中,進(jìn)行特征提取的
具體算法,并且和監(jiān)督學(xué)習(xí)中的特征提取算法進(jìn)行
比較。
312 離散屬性值
聚類算法是基于數(shù)據(jù)點(diǎn)之間的距離,它的目標(biāo)
是把相似的數(shù)據(jù)點(diǎn)聚為一類,把不相似的數(shù)據(jù)點(diǎn)劃
分到不同的子類。對(duì)于連續(xù)的屬性值,距離的衡量
是很自然的。
313 歸一化
歸一化是數(shù)據(jù)預(yù)處理的另一個(gè)重要步驟。在聚
類的不同屬性中,每一個(gè)屬性有不同的取值范圍。
比如在表1 中的移動(dòng)數(shù)據(jù),年齡通常在[ 18 , 80 ] , 然
而,通話分鐘數(shù)的取值通常在幾百。如果把這兩個(gè)
距離簡(jiǎn)單的相加,那么在通話分鐘屬性上的距離會(huì)
大大超過年齡上的距離,從而削弱年齡差距的影響。
一種辦法是把每個(gè)屬性的取值范圍都?xì)w一化到[ 0 ,
1 ] 的范圍內(nèi)。也可以給不同的屬性根據(jù)他們重要
性的大小,賦上不同的權(quán)值。
314 聚類分析
對(duì)數(shù)據(jù)預(yù)處理好之后,就可以運(yùn)用聚類算法進(jìn)
行聚類分析了。可以根據(jù)問題的需要,選擇相應(yīng)的
算法。
運(yùn)用聚類算法之后,需要管理人員對(duì)聚類的結(jié)
果進(jìn)行分析,并作出反饋。比如說,從聚類的結(jié)果來(lái)
看,是否合理,是否符合他們的預(yù)期結(jié)果。比如,用
戶在運(yùn)用K2Means 分析移動(dòng)客戶的時(shí)候,指定k =
3 。但是從聚類的結(jié)果來(lái)看,分成3 個(gè)子類,并不能
很好的區(qū)分客戶群體。因此用戶需要調(diào)整聚類的參
數(shù),重新對(duì)數(shù)據(jù)進(jìn)行聚類分析,直到聚類的結(jié)果合理
為止。
4 非監(jiān)督學(xué)習(xí)中的特征提取算法
在這一節(jié)中,我們介紹在非監(jiān)督學(xué)習(xí)中的特征
提取算法。在監(jiān)督學(xué)習(xí)中,特征提取問題被研究的
很多。主要有兩類代表性的算法。第一類叫wrap2
per app roach[10 ] , 就是把各種特征組合成不同的特
征子集,用一個(gè)分類算法來(lái)測(cè)試在不同特征子集上
的分類正確率,以此來(lái)選擇最好的特征子集。特征
子集通常有以下兩種方法產(chǎn)生: ①向前選擇,從單個(gè)
特征開始,然后每次往當(dāng)前的特征子集里面增加一
個(gè)好的特征,再測(cè)試正確率; ②向后消除,現(xiàn)選中所
有的特征,然后每次剔除一個(gè)差的特征,在剩下的特
征子集中,測(cè)試正確率。第二類算法是對(duì)每個(gè)特征
計(jì)算一個(gè)分?jǐn)?shù),衡量它的重要性。對(duì)所有特征按分
數(shù)排序,剔除那些分?jǐn)?shù)低的特征。Fisher Score 和
Information Gain 就屬于這一類。在進(jìn)行這一類分
數(shù)計(jì)算的時(shí)候,通常需要類屬性值來(lái)幫助衡量一個(gè)
特征的重要性。
在文獻(xiàn)[ 11 ]中提出了一個(gè)新的特征提取算法
Laplacian Score (L S)1 這個(gè)算法的思想是,假設(shè)在
一個(gè)n 維空間,兩個(gè)數(shù)據(jù)點(diǎn)距離很近。如果我們選
擇一個(gè)k (k < n) 維的子空間,在這個(gè)子空間中,這
兩個(gè)數(shù)據(jù)點(diǎn)仍然很近。那么我們認(rèn)為這個(gè)k 維的子
空間能夠很好的保持?jǐn)?shù)據(jù)點(diǎn)在原來(lái)n 維空間的臨近
關(guān)系。這種性質(zhì)叫做Locality Preserving1 在LS
算法中, 對(duì)每一個(gè)特征都計(jì)算出它的Laplacian
Score , 來(lái)反映它的Locality Preserving power 。為
了描述數(shù)據(jù)點(diǎn)附近的幾何結(jié)構(gòu),我們建一個(gè)nearest
neighbor 圖。LS 要提取出那些能夠保持這個(gè)圖的
結(jié)構(gòu)的特征。
我們認(rèn)為,L S 很適用于解決聚類問題中的特征
選擇問題。因?yàn)棰貺 S 不需要知道類屬性,這正是
聚類問題所不能提供的信息。②L S 尋找的是可以
保持?jǐn)?shù)據(jù)點(diǎn)臨近結(jié)構(gòu)(距離) 的特征,這與聚類問題
的目標(biāo)是一致的。
我們?cè)谙旅娼o出L S 算法的詳細(xì)描述。讓Lr
表示第r 個(gè)特征的Laplacian Score1 讓f ri 表示第i
個(gè)數(shù)據(jù)點(diǎn)的第r 個(gè)特征值, i = 1 , ⋯,m1 該算法的
理論分析可以參見文獻(xiàn)[11 ] 。
在第五節(jié),我們將在實(shí)驗(yàn)中檢驗(yàn)LS 算法在聚
類算法中的有效性。
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實(shí)用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營(yíng)銷理念,圍繞客戶生命周期的整個(gè)過程,針對(duì)不同價(jià)值的客戶實(shí)施以客戶滿意為目標(biāo)的營(yíng)銷策略,通過企業(yè)級(jí)協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達(dá)到留住客戶、提高銷售,實(shí)現(xiàn)企業(yè)利潤(rùn)最大化的目的。通過對(duì)客戶進(jìn)行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠(chéng)度分析(Persistency)、客戶利潤(rùn)分析(Profitability)、客戶性能分析(Performance)、客戶未來(lái)分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營(yíng)銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個(gè)環(huán)節(jié)的自動(dòng)化程度,從而幫助企業(yè)達(dá)到縮短銷售周期、降低銷售成本、擴(kuò)大銷售量、增加收入與盈利、搶占更多市場(chǎng)份額、尋求新的市場(chǎng)機(jī)會(huì)和銷售渠道,最終從根本上提升企業(yè)的核心競(jìng)爭(zhēng)力,使得企業(yè)在當(dāng)前激烈的競(jìng)爭(zhēng)環(huán)境中立于不敗之地。
關(guān)鍵詞:CRM,CRM系統(tǒng),CRM軟件,客戶關(guān)系管理,客戶管理軟件,客戶管理系統(tǒng),客戶關(guān)系管理軟件,客戶關(guān)系管理系統(tǒng)