壹.決策樹
一、基本概念
決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係(會員數);決策樹是資料採礦(Data Mining)其中一項主要的技巧,決策樹的目標是針對類別應變數加以預測或解釋反應結果,就具體本身而論,此模組分析技術與判別分析、區集分析、無母數統計,與非線性估計所提供的功能是一樣的,決策樹的彈性,使得資料本身更加具吸引人的分析選項,但並不意謂許多傳統方法就會被排除在外。
決策樹模組的建置,包括三種形式
1. 針對類別預測變數,計算以單變量分裂為基礎之二元決策樹;
2. 針對順序預測變數,計算以單變量分裂為基礎之二元決策樹(至少為
順序尺度)
3. 混合兩類方式的預測變數計算以單變量分裂為基礎之二元決策樹。
另外,也提供以線性組合分裂(Linear Combination Split)為基礎,計算區間尺度預測變數的決策樹選項。
肠胃康片
貳.羅吉斯迴歸
一、基本概念
羅吉斯(logistic)迴歸模型在分析二分類(binary)或有次序(ordinal)的應變數與解釋變數間的關係。羅吉斯迴歸模式中,用自變數去預測應變數在給定某個值(如1或0)的機率。這應變數通常呈現二分類中的一個值或有次序中最小的一個值。當應變數有很多不同的值時,如:等距尺度(interval Sale)或比例尺度(ratio Scale)的資料型態時,通常使用簡單迴歸模型而不用羅吉斯迴歸模型。對一個二分類的應變數Y ,羅吉斯迴歸模型的形式如下:
logit /(1-P)=* +β
P =Prob(y =Y │X):代表應變數的機率值,且Y 代表應變數Y 中第一個。 *:代表截距參數
β:代表斜率參數的向量
X :代表解釋變數的向量kb1
羅吉斯迴歸方程式即為第i 組個別事件機率(i P )的對機數(logit)轉換,亦就是轉換的羅吉斯迴歸模式,當作向量自變數的一條直線方程式,一般化的模式表示法是用應變數的平均數函數)(u g g 與自變數的
零的相反数線性關係。g 稱為連結函數(link function),其他常見的連結函數有mormit function(被使用在probit analysis)和補充的log-log function 。對機數函數(logit function)有較易解釋的優點,同時,它也可應用到將來或過去曾收集到的資料。
對數線性模型是將列聯表中每格的機率(或理論頻度)取對數後,分解參數獲得的;logistic 模型是將機率比取對數後,再進行參數化而獲得的,它的歷史比對數線性模型長,方法也很有特色。為了較好地理解這一方法,我們先介紹logit 變換和logistic 分佈,然後再回到列聯表的logistic 迴歸的分析方法。
叁.類神經網路
一、基本概念
公司资产管理
為了在語音及影像辨認獲至與人腦相似的功能,自1940年起,科學家即著手從事此方面的研究,仿造最簡單的神經元模式,開始建立最原始的類神經網路(Artificial Neural Network ANN),歷經40年的發展,類神經的研究工作雖曾一度陷入低潮,近幾年又再度復甦,並且結合了生理,心理,電腦等科技而成為新的研究領域。
一部機器的運作或是一個事件的發生常常有相對應的因果關係(例如:打開電器用品的開關,電器用
品開始運作;腳踩油門車子的速度增加),我們將打開開關與腳踩油門的動作稱為系統的輸入,電器用品與車子稱為系統,而電器用品的運作與車子的速度稱為系統的輸出,整個輸入與輸出的關係可以用一個方塊圖來表示:
輸入輸出
類神經網路的一個優點在於並不需要瞭解系統的數學模型為何,而直接以神經網路取代系統的模型,一樣可以得到輸入與輸出之間的關係。其方塊圖如下所示:
輸入輸出
人類的大腦大約由1011個神經細胞(Nerve Cells)組成,而每個神經細胞又有104個突觸(Synaps)與其他細胞互相連結成一個非常複雜的神經網路。一個神經單元是由一個細胞主體(Cell body)所構成,而細胞主體則具有一些分支凸起的樹狀突起(Dendrite)和一個單一分支的軸突(Axom)。樹狀突起由其
它的神經單元接收訊號,而當其所接受的脈動(Impul)超過某一特定的定限(Threshold),這個神經單元就會被點燃(Fire),並產生一個脈動傳遞到軸突。
在軸突末端的分支稱為胞突纏絡(Synap),它是神經與神經的連絡點﹔它可以是抑制的或者是刺激的。抑制的胞狀纏絡會降低所傳送的脈動﹔刺激的細胞纏絡則會加強之。當人類的感官受到外界刺激經由神經細胞傳遞訊號到大腦,大腦便會下達命令傳遞至相關的受動器(Effectors)做出反應(例如:手的皮膚接觸到
燙的物體立即放開),這樣的過程往往需要經由反覆的訓練,才能做出適當的判斷,並且記憶於腦細胞中。如果大腦受到損害(例如中風患者),便需要藉由復健的方式,重新學習。
下圖為一個類神經元的模型顯示:
1
X 2X X Y
X :稱為神經元的輸入(input)
梦见长牙W :稱為鍵結值(weights)
百鸟园
乱砍滥伐b
:稱為閥值(bias),有偏移的效果 S :稱為加法單元(summation),此部分是將每一個輸入與鍵結值相乘後做一 加總的動作。
φ( ) :稱之為活化函數(activation function),通常是非線性函數,有數種不同的 型式,其目的是將S 的值做映射得到所需要的輸出。
Y :稱之為輸出(output),亦即我們所需要的結果。
虛線的部分即為類神經元,類神經網路的訓練就是在調整鍵結值,使其變得更大或是更小,通常由隨機的方式產生介於1+到1-之間的初始值。鍵結值可視為一種加權效果,其值越大,則代表連結的神經元更容易被激發,對類神經網路的影響也更大;反之,則代表對類神經網路並無太大的影響,而太小的鍵結值通常可以移除以節省電腦計算的時間與空間。
以下所顯示的是四個輸入與一個輸出的倒傳遞網路模型:
輸入層隱藏層輸出層
贯口报花名1
X 2X 3
X 4
X 1
※圓圈的部分代表神經元
這個網路由三層的類神經單元所組成。第一層是由輸入單元所組成的輸入層,而這些輸入單元可接收樣本中各種不同特徵。這些輸入單元透過固定強度的連結連接到由特徵偵測單元後,再透過可調整強度的連結連接到輸出層中的輸出單元,最後,每個輸出單元對映到某一種特定的分類,這個網路是由調整連結強度的程序來達成學習的目的。