- 相關推薦
考研統計學多元回歸知識要點
應用統計碩士考研需要掌握統計學先關知識點,考研總結了一些統計學要點,方便大家進行學習。下面是有關多元回歸的知識點,具體內容如下。
考研統計學多元回歸知識要點 1
1.多重共線性
回歸模型中兩個或兩個以上的自變量彼此相關
多重共線性帶來的問題有
可能會使回歸的結果造成混亂,甚至會把分析引入歧途
可能對參數估計值的正負號產生影響,特別是各回歸系數的正負號有可能同我們預期的正負號相反
2.多重共線性的識別
檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關系數,并對各相關系數進行顯著性檢驗
若有一個或多個相關系數顯著,就表示模型中所用的自變量之間相關,存在著多重共線性
如果出現下列情況,暗示存在多重共線性
模型中各對自變量之間顯著相關。
當模型的線性關系檢驗(F檢驗)顯著時,幾乎所有回歸系數的t檢驗卻不顯著
回歸系數的正負號與預期的相反。
3.變量選則過程
在建立回歸模型時,對自變量進行篩選
選擇自變量的原則是對統計量進行顯著性檢驗
將一個或一個以上的自變量引入到回歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變量使SSE的減少是顯著的,則說明有必要將這個自變量引入回歸模型,否則,就沒有必要將這個自變量引入回歸模型
確定引入自變量是否使SSE有顯著減少的方法,就是使用F統計量的值作為一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量
變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優子集等
4.向前選擇
從模型中沒有自變量開始
對k個自變量分別擬合對因變量的一元線性回歸模型,共有k個,然后找出F統計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型
分別擬合引入模型外的k-1個自變量的線性回歸模型
如此反復進行,直至模型外的自變量均無統計顯著性為止
5.向后剔除
先對因變量擬合包括所有k個自變量的回歸模型。然后考察p(p
考察p-1個再去掉一個自變量的模型(這些模型中每一個都有k-2個的自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除
如此反復進行,一直將自變量從模型中剔除,直至剔除一個自變量不會使SSE顯著減小為止
6.逐步回歸
將向前選擇和向后剔除兩種方法結合起來篩選自變量
在增加了一個自變量后,它會對模型中所有的變量進行考察,看看有沒有可能剔除某個自變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除
按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經不能導致SSE顯著減少
在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進入到模型中
7.虛擬自變量
用數字代碼表示的定性自變量
虛擬自變量可有不同的水平
只有兩個水平的虛擬自變量。比如,性別(男,女)
有兩個以上水平的虛擬自變量,貸款企業的類型(家電,醫藥,其他)
虛擬變量的取值為0,1
回歸模型中使用虛擬自變量時,稱為虛擬自變量的回歸
當虛擬自變量只有兩個水平時,可在回歸中引入一個虛擬變量,比如,性別
一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個虛擬變量
例:引進虛擬變量時,回歸方程可寫:
E(y) =b0+ b1x1+ b2x2
女( x2=0):E(y|女性) =b0 +b1x1
男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1
b0的含義表示:女性職工的期望月工資收入
(b0+ b2)的含義表示:男性職工的期望月工資收入
b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2)-b0= b2。
已經進入10月份了,距離考試的時間越來越近了。正處于考研復習的關鍵時刻,考生們保持良 好的心態,全身心的投入到考研復習中去。
考研統計學多元回歸知識要點 2
一、統計圖表
1.統計圖
。1)概念:統計圖是用圖形的形式呈現研究的數量化結果的一種形式。
。2)組成及特點如下:
、俳y計圖一般由圖題、變量說明、坐標軸及單位、圖形4個部分組成。常見的統計圖有線性圖、條形圖、圓形(扇形)圖和組織圖等。
、诮y計圖比統計表更直觀,更易于理解。但是,統計圖和統計表一樣,不能代替研究報告中的有關文字敘述,只能用來強調某些重要的數據關系。
、鄄煌慕y計圖表達的效果是有區別的,即使選用同一種統計圖,繪制方法的不同(如采用不同的軸單位尺度)也可能造成表達效果的差異。
2.統計表
(1)概念:統計表是用表格的形式呈現研究的數量化結果的方式之一。
。2)組成及特點如下:
、僖粋統計表通常包括表題、表體和表注三部分。表題是統計表的標題。表體是統計表的主體內容,包括研究的對象或特征,研究對象或特征的指標、類別、數據結果等內容。表注是對統計表中有關內容的說明,包括對表的來源、用途等作的注的說明。有時可以說明統計推論的結果和結論。
②研究的對象或特征名稱一般列在表的左邊一列;研究對象或特征的指標、類別名稱一般列在表的上邊一欄;同一縱列上的數據所保留的小數位要一致,位數要對齊。
、劢y計表的類型主要包括原始數據表、次數分布表和分析結果表等。
二、集中量數
1.算術平均數
。1)概念:算術平均數是所有觀察值的總和除以總頻數所得之商,簡稱為平均數或均數。它是一種集中量數,是某一特質“真值”的漸進、最佳的估計值。
表達公式:
式中N為數據個數,Xi為每一個數據,∑為相加求和。
。2)算術平均數的優點是:反應靈敏;計算方便;適合代數運算;受抽樣變動的影響較小。具體表現在以下幾個方面:
①當只知一組觀察值的總和及總頻數就可以求出算術平均數;
、谟眉訖喾ǹ梢郧蟪鰩讉平均數的總平均數;
、塾脴颖緮祿茢嗫傮w集中量時,算術平均數最接近于總體集中量的真值,它是總體平均數的最好估計值;
④在計算方差、標準差、相關系數以及進行統計推斷時,都要用到它。
。3)算術平均數的缺點:易受兩極端數值(極大或極。┑挠绊懖⑶耶斠唤M數據中某個數值的大小不夠確切時就無法計算其算術平均數。
(4)算術平均數的條件要求如下:
①數據必須是同質的,即同一種測量工具所測量的某一特質;
、跀祿≈当仨毭鞔_;
、蹟祿x散不能太大。
。5)算術平均數的特點:
①在一組數據中每個變量與平均數之差(稱離均差)的總和等于零;
②在一組數據中,每個數都加上一常數C,所得的平均數為原來的平均數加常數C;
、墼谝唤M數據中,每個數據都乘以一個常數C,所得的平均數為原來的平均數乘以常數C。
。6)應用平均數的原則
、偻|性原則,即使用同一種觀測手段,采用相同的觀測標準,能反映某一問題的同一方面特質的數據;
、谄骄鶖岛蛡體數值相結合的原則;
、燮骄鶖蹬c標準差、方差相結合原則。
2.中數(Median,符號為Md)
。1)概念:中數,又稱中位數,中點數,中值,是位于依一定順序排列的一組數據中央位置的數值,在這一數值上、下各有一半頻數分布著。即在這組數據中,有一半的數據比它大,有一半的數據比它小。這個數可能是數據中的某一個,也可能根本不是原有的數。
。2)中數的計算方法
、僭紨抵涤嬎惴椒
將一組原始數據依大小順序排列后,若總頻數為奇數,就以位于中央的數據作為中位數;若總頻數為偶數,則以最中間的兩個數據的算術平均數作為中位數。
②頻數分布表計算法
若一組原始數據已經編成了頻數分布表,可用內插法,通過頻數分布表計算中位數。
(3)中位數雖然也具備一個良好的集中量所應具備的某些條件,例如比較嚴格確定,簡明易懂,計算簡便,受抽樣變動影響較小,但是它不適合進一步的代數運算。它適用于以下幾種情況:
、僖唤M數據中有特大或特小兩極端數值時;
、谝唤M數據中有個別數據不確切時;
③資料屬于等級性質時;
、墚斝枰焖俟烙嬕唤M數據的代表值時。
3.眾數(Mode,簡稱Mo)
。1)概念:眾數又稱為范數,密集數,是指在次數分布中出現次數最多的那個數的數值。它也是一種集中量數,也可用來代表一組數據的集中趨勢。
。2)計算眾數的方法
、僦苯佑^察求眾數。直接觀察求眾數的方法很簡單,就是只憑觀察找出出現次數最多的那個數據就是眾數。數據整理成次數分布表后,觀察次數最多的那個分組區間的組中值為眾數。依據次數分組表計算眾數受分組的影響。
、谟霉接嬎愕谋姅捣Q為數理眾數。當次數分布曲線的形式已知時,可用積分的方法求眾數。這種方法較復雜,在心理與教育統計中很少應用,而應用較多的是皮爾遜經驗法和金氏插補法。
(3)眾數的意義與應用
眾數的概念簡單明了,容易理解,但它不穩定,受分組影響,亦受樣本變動影響。較少受極端數目的影響,反應不夠靈敏。眾數只是一個估計值。同時,眾數不能作進一步代數運算。所以眾數不是一個優良的集中量數,應用也不廣泛。
考研統計學多元回歸知識要點 3
多元線性回歸
多元線性回歸是統計學中的一種回歸分析方法,用于研究兩個或多個自變量與一個因變量之間的線性關系。
一、基本定義
定義:多元線性回歸是指研究一個因變量與兩個或兩個以上自變量的回歸關系,這種關系可以用線性方程來表示。
應用:多元線性回歸在社會科學、自然科學、經濟學、醫學等多個領域都有廣泛應用。
二、數學模型
多元線性回歸的數學模型為:
[ Y = eta_0 + eta_1X_1 + eta_2X_2 + cdots + eta_pX_p + epsilon ]
其中,( Y ) 是因變量,( X_1, X_2, ldots, X_p ) 是自變量,( eta_0, eta_1, eta_2, ldots, eta_p ) 是回歸系數,( epsilon ) 是隨機誤差項。
三、參數估計
最小二乘法:用于估計回歸系數,目標是使預測值與實際觀測值之間的誤差平方和最小。
統計軟件:如SPSS、R、Python等,用于參數估計和模型檢驗。
四、模型評估
擬合優度:常用指標包括R平方和調整后的R平方,R平方越接近1,模型擬合度越好。
顯著性檢驗:用于確定自變量對因變量的影響是否具有統計學意義。
殘差分析:用于評估模型是否符合線性回歸的假設條件。
五、注意事項
自變量選擇:可以通過相關分析、逐步回歸等方法來選擇對因變量有顯著影響的自變量。
多重共線性:可能導致回歸系數估計不準確,需要處理。
模型解釋:回歸系數的正負和大小反映了自變量對因變量的影響方向和程度。
六、應用場景
經濟學:研究多種因素對經濟增長的影響。
醫學:分析多個生活方式因素與健康指標之間的關系。
市場營銷:分析多種因素對銷售額的影響,優化營銷策略。
總之,多元線性回歸是一種強大的統計分析工具,能幫助我們深入理解多個自變量與因變量之間的復雜關系。在實際應用中,需要注意選擇合適的自變量、處理多重共線性問題以及正確解釋模型結果。
【考研統計學多元回歸知識要點】相關文章:
西醫綜合考研沖刺:41個病理學知識要點12-31
考研政治知識點09-26
考研政治知識點總結08-29
考研政治復習知識點歸納08-24
考研政治毛中特知識點10-16
考研外國教育史知識點10-18
國際商務碩士考研備考知識點總結09-03
考研政治毛中特復習重要知識點12-13
統計學專業實習總結04-19