30岁学网站开发重庆商务网站建设
目录
某地区土壤所含可给态磷回归分析
一、研究目的
二、数据来源和相关说明
三、描述性分析
3.1 样本描述
3.2 数据可视化
四、数据建模
4.1 回归模型A
4.2 回归模型B
4.3 回归模型B模型诊断
4.4 回归模型C
五、结论及建议
5.1 结论
5.2 建议
六、代码
某地区土壤所含可给态磷回归分析
摘要: 本文建立了多个回归模型,分析土壤内可给态磷影响因素。经过分析得出土壤内可给态林浓度主要与土壤内无机磷浓度、土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷有关,且前者对可给态磷浓度影响较大。逐步回归模型满足正态性与方差齐性,且通过了显著性检验。根据土壤内无机磷浓度增加的0-1变量对土壤内可给态磷浓度不存在显著性影响。基于此,可以根据回归方程模型,对玉米的生产与产量起到指导意义。
一、研究目的
结合土壤中可给态磷的浓度,可以预测玉米体内可供态磷浓度的状态,预测玉米的生长态势,指导玉米生产;另一方面,可以求出土壤中无机磷浓度被期望的范围,从而对改善玉米的土壤条件,对提高玉米产量起到重要作用。结合此背景,本文欲分析某地区土壤所含可给态磷的影响因素,进而对提出合理化建议。
二、数据来源和相关说明
本文依据表1某地区土壤所含可给态磷的情况,建立多元线性回归方程。数据共计18条,涉及4个变量,分别是:
表 2-1 变量说明
|   变量  |   解释  | 
|   X1  |   土壤内所含无机磷浓度  | 
|   X2  |   土壤内溶于K2CO3溶液并受溴化物水解的有机磷  | 
|   X3 X4  |   土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷 以变量X1中位数为分界点,将X1化为0-1变量  | 
|   Y  |   一种在20℃土壤内的玉米中的可给态磷  | 
三、描述性分析
为了获取对数据的直观了解,本文先对数据进行了描述性统计分析。
3.1 样本描述
表 3-1 样本描述
|   
  |   MEAN  |   SD  |   MIN  |   MED  |   MAX  | 
|   X1  |   11.94  |   10.15  |   0.40  |   10.50  |   29.90  | 
|   X2  |   42.06  |   13.58  |   19.00  |   44.00  |   65.00  | 
|   X3  |   123.00  |   45.74  |   37.00  |   123.50  |   202.00  | 
|   Y  |   81.28  |   27.00  |   51.00  |   77.00  |   168.00  | 
从表3-1可以得出:土壤内所含无机磷浓度(X1)介于0.40-29.90之间,其平均水平约为11.94(平均值)和10.50(中位数),变异水平约为10.15(标准差);土壤内溶于K2CO3溶液并受溴化物水解的有机磷(X2)介于19.00-65.00之间,其平均水平约为42.06(平均值)和44.00(中位数),变异水平约为13.58(标准差);土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷(X3)介于37.00-202.00之间,其平均水平约为123.00(平均值)和123.50(中位数),变异水平约为45.74(标准差);一种在20℃土壤内的玉米中的可给态磷(Y)介于51.00-168.00之间,其平均水平约为81.28(平均值)和77.00(中位数),变异水平约为27.00(标准差)。
3.2 数据可视化
为了更直观分析数据分布情况与数据间的相关关系,本文绘制了各个变量的直方图与各变量的相关性热力图,结果如图3-1和3-2所示。

图 3-1 直方图
从图3-1可以得出:四个均不服从正态分布,其中无机磷(X1)浓度主要集中在0~5;土壤内溶于K2CO3溶液并受溴化物水解的有机磷(X2)浓度主要集中在30-60;土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷(X3)浓度主要集中在100-175;可给态磷浓度(Y)主要集中在60-100。

图 3-2 相关性热力图
由图3-2可以得出:变量X1与Y之间存在较强的线性相关关系,变量X2、X3与Y之间的线性相关关系较弱。
四、数据建模
4.1 回归模型A
为了分析可给态磷浓度(Y)的影响因素,本文首先建立了全部变量的多元线性回归方程A,即以Y作为因变量,X1-X3作为自变量,建立线性回归方程:
Y=β0+β1X1+β2X2+β3X3+ϵ
模型结果如表4-1所示。
表 4-1 回归模型A结果
|   
  |   Estimate  |   Std.Error  |   t value  |   Pr(>|t|)  | 
|   (Intercept)  |   43.650  |   18.054  |   2.418  |   0.030*  | 
|   X1  |   1.785  |   0.540  |   3.308  |   0.052**  | 
|   X2  |   -0.083  |   0.420  |   -0.198  |   0.846  | 
|   X3  |   0.161  |   0.112  |   1.443  |   0.171  | 
|   R-squared  |   0.5493  | |||
|   Adjusted R-squared  |   0.4527  | |||
|   p-value  |   0.009227  | |||
从表4-1可以得出:在显著性水平α=0.05 下,三个变量中,只有X1的P值<0.05,即对Y有显著影响,而变量X2和X3的P值>0.05,即对Y不存在显著性影响。模型的检验P值为0.009<0.05,即通过检验,说明方程具有统计学意义。
4.2 回归模型B
由于模型A中X2和X3对Y不存在显著性影响,因而本文又建立了逐步回归模型B,对自变量进行选择,模型结果如表4-2所示。
表4-2 回归模型B结果
|   
  |   Estimate  |   Std.Error  |   t value  |   Pr(>|t|)  | 
|   (Intercept)  |   41.479  |   13.883  |   2.988  |   0.009**  | 
|   X1  |   1.737  |   0.467  |   3.721  |   0.002**  | 
|   X3  |   0.155  |   0.104  |   1.494  |   0.156  | 
|   R-squared  |   0.5481  | |||
|   Adjusted R-squared  |   0.4878  | |||
|   p-value  |   0.002589  | |||
由表4-2可以得出:经过逐步回归分析,剔除了变量X2,保留了变量X1和X3。模型P值为0.003<0.05,通过检验。回归方程为:
Y=41.479+1.737X1+0.155X3 (1)
即X1每增加1,因变量Y增加1.737;X3每增加1,因变量Y增加0.155,自变量X1对Y影响更大。
4.3 回归模型B模型诊断
首先对自变量进行共线性诊断,结果如表4-3所示。X1和X3的VIF值均小于4,即变量之间不存在多重共线性。
表 4-3 共线性检验
|   
  |   VIF  | 
|   X1  |   1.023639  | 
|   X3  |   1.023639  | 
其次,对模型的正态性、方差齐性与异常值进行诊断,结果如表4-1所示。由QQ图可以得出,残差项基本服从正态分布;由左下角图形可以得出,方差基本保持水平,即满足等方差性;由右下角图形可以得出,大部分点的cook距离均小于0.5,只有第17个点的cook距离>0.5,位于1.0-1.5之间,可以考虑剔除此点,以优化模型。

图 4-1 回归模型B诊断
4.4 回归模型C
考虑到自变量X1对Y影响较大,本文又根据变量X1增设变量X4,具体操作是以X1中位数为分界点将X1数据分为两类,若>X1中位数,则X4=1,否则X4=0,即变量X4为0-1变量。将变量X4那个模型,建立回归模型C。模型结果如表4-4所示。
表4-4 回归模型C结果
|   
  |   Estimate  |   Std.Error  |   t value  |   Pr(>|t|)  | 
|   (Intercept)  |   39.069  |   17.687  |   2.209  |   0.04574*  | 
|   X1  |   2.850  |   0.904  |   3.153  |   0.00763**  | 
|   X2  |   -0.088  |   0.405  |   -0.218  |   0.83048  | 
|   X3  |   0.200  |   0.111  |   1.802  |   0.09475  | 
|   X4  |   -25.363  |   17.609  |   -1.44  |   0.17342  | 
|   R-squared  |   0.6113  | |||
|   Adjusted R-squared  |   0.4918  | |||
|   p-value  |   0.01069  | |||
由表4-4可以得出:模型P值为0.01<0.05,即在显著性水平α=0.05 下,模型C具有统计学意义;自变量X1-X4中,只有变量X1通过了检验,即对因变量Y存在显著性影响,X2-X3未通过检验。下面考虑对变量X1-X4进行选择,即建立逐步回归模型,模型结果如表4-5所示。
表4-5 逐步回归模型结果
|   
  |   Estimate  |   Std.Error  |   t value  |   Pr(>|t|)  | 
|   (Intercept)  |   41.479  |   13.883  |   2.988  |   0.009**  | 
|   X1  |   1.737  |   0.467  |   3.721  |   0.002**  | 
|   X3  |   0.155  |   0.104  |   1.494  |   0.156  | 
|   R-squared  |   0.5481  | |||
|   Adjusted R-squared  |   0.4878  | |||
|   p-value  |   0.002589  | |||
由表4-5可以得出,经过逐步回归分析,剔除了变量X2和X4,保留了X1和X3,模型结果与回归模型B结果相同,模型解读与诊断与模型B相同。
五、结论及建议
5.1 结论
通过建立多个回归模型,得出如下结论:土壤内可给态林浓度主要与土壤内无机磷浓度、土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷有关,且前者对可给态磷浓度影响较大。逐步回归模型满足正态性与方差齐性,且通过了显著性检验。根据变量X1增加的0-1变量X4对土壤内可给态磷浓度不存在显著性影响。
5.2 建议
土壤内所含可给态磷浓度与土壤内无机磷浓度、土壤内溶于K2CO3溶液但不溶于溴化物水解的有机磷浓度存在线性回归关系。可以根据土壤内两者浓度,预测土壤内可给态磷浓度,进而预测玉米体内可供态磷浓度的状态与生长态势,指导玉米生产;另一方面,可以通过改善土壤内所含可给态磷浓度,改善玉米的土壤条件,进而提高玉米产量。
六、代码
a=read.csv("D:/个人成长/学业/课程/大三下课程/统计模型/作业/第二次作业/k2co3.csv",header=1)
a[c(1:5),]N = sapply(a,length)
MU = sapply(a,mean)
SD = sapply(a,sd)
MIN = sapply(a,min)
MED = sapply(a,median)
MAX = sapply(a,max)
result = cbind(N,MU,SD,MIN,MED,MAX)
resultpar(mfrow = c(2,2))
hist(a$X1, xlab = "无机磷", ylab = "频数",main=NULL)
hist(a$X2, xlab = "双溶有机磷", ylab = "频数",main=NULL)
hist(a$X3, xlab = "单溶有机磷", ylab = "频数",main=NULL)
hist(a$Y, xlab = "可给太磷", ylab = "频数",main=NULL)
vif(Model.AIC)
library(corrplot)
k=cor(a,use='everything',method='pearson')
par(mfrow=c(1,1))
corrplot(k,addCoef.col = "black")fit = lm(Y~X1+X2+X3, data = a)
summary(fit)Model.AIC=step(fit,trace=F)
summary(Model.AIC)#共线性检验
library(car)
vif(Model.AIC)#模型诊断
par(mfrow = c(2,2))
plot(Model.AIC,which=1)
plot(Model.AIC,which = 2)
plot(Model.AIC,which = 3)
plot(Model.AIC,which = 4)b=read.csv("D:/个人成长/学业/课程/大三下课程/统计模型/作业/第二次作业/k2c032.csv",header=1)fit2 = lm(Y~X1+X2+X3+X4, data = b)
summary(fit2)Model.AIC2=step(fit,trace=F)
summary(Model.AIC2) 
个人见解,欢迎大家批评指正
