CRM系統(tǒng):數(shù)據(jù)挖掘在企業(yè)CRM中的研究
數(shù)據(jù)挖掘在企業(yè)CRM中的研究
李忠
( 1 江南大學(xué); 2 常州高等職業(yè)技術(shù)學(xué)校, 江蘇常州213000)
摘要:本文主要介紹了數(shù)據(jù)挖掘的基本概念、功能分類以及數(shù)據(jù)挖掘技術(shù)在CRM中的典型應(yīng)用; 隨后文章選擇C4.5 算法
為本系統(tǒng)增加分析功能; 接著對C4.5 算法進行了深入的研究與分析, 發(fā)現(xiàn)在計算速度以及生成結(jié)果的復(fù)雜性上有待改進, 在
此基礎(chǔ)上提出了改進優(yōu)化的方法并用程序?qū)崿F(xiàn), 通過實驗比較證明取得了良好的效果。在文章的最后用改進后的C4.5 算法
為本CRM系統(tǒng)實現(xiàn)了客戶的保持分析功能。
關(guān)鍵詞: CRM; 數(shù)據(jù)挖掘; 改進C4.5 算法; 功能; 處理
1 引言
客戶關(guān)系管理(Customer Relationship Management)的指導(dǎo)思
想就是對客戶進行系統(tǒng)化的研究, 以便改進對客戶的服務(wù)水平,
提高客戶的忠誠度, 并因此為企業(yè)帶來更多的利潤。這就要求
CRM系統(tǒng)要能夠在有效地獲取客戶的各種信息的同時, 對客戶
的行為方式進行深入地分析, 尋找其中的規(guī)律, 為客戶提供更
好、更個性化的服務(wù), 為企業(yè)決策提供支持。然而如何管理和分
析大量、龐雜的客戶信息, 從中找出對企業(yè)管理決策有價值的知
識則需要有更先進的技術(shù)和工具的支持, 而數(shù)據(jù)挖掘等新興技
術(shù)的出現(xiàn), 為CRM的實施提供了良好的支持。
數(shù)據(jù)挖掘的功能以及方法有多種, 如關(guān)聯(lián)分析、分類、聚類和時
序模式等, 關(guān)聯(lián)分析可以用于交叉營銷中的連帶銷售; 聚類一般
可以用于數(shù)據(jù)挖掘前數(shù)據(jù)的預(yù)處理; 而分類是CRM中運用最為
廣泛的一種方式, 它可以被用于客戶細分、客戶獲取等方面, 本
文將使用分類方法為CRM系統(tǒng)實現(xiàn)客戶的保持功能, 在接下來
將重點討論數(shù)據(jù)挖掘的CMR 中的運用。
2 典型算法分類與選擇
目前已經(jīng)出現(xiàn)了好幾種決策樹分類算法, 如: ID3; C4.5;
CHAID; CHART; SLIQ; SPRINT; PUBLIC 等, 現(xiàn)列出與本課題相
關(guān)的具有代表性的一些算法。
ID3 算法雖然是比較經(jīng)典也是最老的一種算法, 可是它存
在許多的不足: 一是它不能處理連續(xù)屬性值, 對于連續(xù)值屬性,
它都要把該屬性離散化, 這樣就大大降低了分類的精確度; 二是
算法過程不靈活, 不能處理有空缺值的樣本集合, 這就對訓(xùn)練樣
本集合的質(zhì)量提出很高的要求。三是生成的決策樹太大, 因為對
于每個離散屬性如果作為分裂屬性, 如果有n 個屬性值, 那么就
會長出n 個子樹。
SPRINT 算法是一種比較成熟的決策樹分類算法, 它幾乎克
服了以往已經(jīng)提出的算法中的一些缺憾, 可是該算法的側(cè)重點
在于處理超大形容量的數(shù)據(jù)。此算法可以不受到機器主存大小
的限制, 可以把數(shù)據(jù)在主存與輔存之間來回切換。本人認為在本
文所建立的CRM系統(tǒng)中所處理的數(shù)據(jù)是與客戶有關(guān), 而象中小
型企業(yè)這樣的客戶容量遠沒有這樣的大, 所以不建議使用該算
法。
C4.5 算法是Quinlan 的ID3 算法的改進版本, 該算法克服
了ID3 中的缺憾, 能夠直接處理連續(xù)值屬性, 能夠處理有空缺值
的樣本集合。它從樹的根結(jié)點處的所有訓(xùn)練樣本開始,選取一個
屬性來區(qū)分這些樣本。對屬性的每一個值產(chǎn)生一個分支, 分支屬
性值的相應(yīng)樣本子集被移到新生成的子結(jié)點上, 這個算法遞歸
地應(yīng)用于每個子結(jié)點上, 直到結(jié)點的所有樣本都分區(qū)到某個類
中, 到達決策樹的葉結(jié)點的每條路徑表示一個分類規(guī)則。這樣自
頂向下的決策樹的生成算法的關(guān)鍵性決策是對結(jié)點屬性值的選
擇。該算法簡單易懂, 而且效率高, 這也正是我們所追求的目標。
所以本文中, 我們選擇該算法為CRM實現(xiàn)客戶的保持分析功
能。
3 基于C4.5 算法的改進
C4.5 算法雖然添加了對于有連續(xù)值的屬性的處理方法, 可
是在每個結(jié)點處都要對連續(xù)值進行排序, 浪費大量CPU 時間。
本文在C4.5 算法的基礎(chǔ)上引進了SPRINT 算法中對于連續(xù)值的
處理方法, 采用屬性列表( attribute lists) 的方式對記錄集一次性
進行排序。在表的數(shù)據(jù)集中, 我們在讀入內(nèi)存的過程中就將其
分解為兩個屬性的列表, 然后對有連續(xù)值的屬性進行一次性的
排序。
強力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標的營銷策略,通過企業(yè)級協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達到留住客戶、提高銷售,實現(xiàn)企業(yè)利潤最大化的目的。通過對客戶進行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個環(huán)節(jié)的自動化程度,從而幫助企業(yè)達到縮短銷售周期、降低銷售成本、擴大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機會和銷售渠道,最終從根本上提升企業(yè)的核心競爭力,使得企業(yè)在當前激烈的競爭環(huán)境中立于不敗之地。