打开文本图片集
摘 要:随着大数据技术的深入推广与应用,如何借助科学的方法来对海量的基础数据进行加工处理,从中获得一些能够为相关决策活动提供参考指导的信息成为研究者高度关注的问题。本文重点围绕一种黔南州烤烟产量到户预测模型展开研究,通过实际烤烟生产中得到的数据,建立了一个R2为0.679的多元线性回归预测模型,建立的预测模型在偏差率[偏差率=(预测值-实际值)/实际值]上,单户平均偏差率0.39%,可用于实际生产预测。本文仅为如何有效运用该模型提出相关的指导和建议,以促进该模型在烤烟产量到户预测方面发挥更大的价值。
关键词:烤烟;产量;预测模型;黔南州
为了实现大数据技术在贵州省黔南州农业生产活动中的积极应用,为烤烟产量的科学预测提供科学的支撑,笔者以黔南州为例,构建了一種烤烟产量到户预测模型,并通过往年数据的检验取得了较好的结果。现就该预测模型构建的相关理论与实践内容进行介绍说明,以推动模型的推广与应用。
一、研究背景
在现代化农业发展过程中,如何通过有效的科学技术来提升生产活动的准确性,降低生产过程中的盲目性和风险性,是近年来理论与实践研究中的重点内容。随着大数据技术的发展,如美国、德国等发达国家通过建立生产预测模型和方法来指导农业生产,取得了明显的效益,而且为农业科学技术的发展提供了推动力。相较于国外而言,虽然国内一些专家学者已经将大数据技术应用到农业生产领域,通过构建相应的生产模型来预测生产经营的效益,但尚处于探索阶段,需要深入进行研究与实践。当然,虽然目前国内农业生产预测模型应用偏少,但也存在利用预测模型来对天然林、水稻、小麦籽粒等产量进行预测的成果。
黔南州作为我国烤烟生产的重点区域,对其产量进行准确的预测可以为经济方面的相关决策提供充分、科学的依据,进而提升农户生产的综合效益[1]。对于产量的预测来说,最佳的方法就是通过产量到户的预测模型来预测每户烟农所能生产的烤烟产量,进而确定整个地区的产量[2]。基于上述原因的考虑,本次研究选择以黔南州藜山烟草站为例,根据大数据的相关思想和方法,以及烟草站积累的数据,建立烤烟产量到户预测模型,为该地区的烤烟产量预测提供指导和帮助。
二、烤烟产量到户预测建模的主要方法
本次构建的烤烟产量到户预测模型主要采用多元线性回归模型。之所以选择该模型,主要是考虑到影响烤烟产量的因素比较多,除了实际种植面积、病害发生率、虫害发生率等因素以外,还有肥料用量、用药频次和劳动力投入等。相对于一元线性回归模型而言,多元线性回归模型所具备的对一个变量与多个变量之间的关系进行研究的优势能够满足农户了解产量与其他诸多因素之间的数量关系,从而提升预测模型的实
效性。
除了上述理论性内容以外,从现实的可行性方面来看,模型构建所需的上等烟比例、667 m2产量、合同面积等数据可以通过相关的信息化系统进行查询,而实际种植面积、病害发生率、虫害发生率、有效叶片数、肥料用量、家庭劳动力和用药次数等数据可以通过对农户的调查获取,从而为烤烟产量到户预测模型的构建提供完整的数据支持。
三、自变量的选择
自变量的选择是模型构建中的关键性工作,其直接影响烤烟产量到户预测模型的最终构建效果。在本次研究过程中,为了确保自变量选择的科学性和正确性,围绕影响烤烟产量的因素进行了探索,通过研究小组成员的多次反复讨论与交流,通过比对及验证后确定为追肥施用量、病虫害发生率、气候条件、合同面积和长势情况5项指标在内的自变量因素。而在对这些因素进行深入分析后认为,相较于其他4种自变量而言,气候条件这一自变量虽然对烤烟产量的影响较大,但从现实方面来考虑,一方面该数据指标获取的难度比较大,并且产量到户预测模型主要是以藜山烟草站所辖的区域为对象来对农户的烤烟产量进行的预测,农户产量受气候条件的影响差异较小,最终决定将其排除自变量范围。因此,最终构建的模型主要用于探讨肥料施用、病虫害发生、合同面积、长势情况对农户烤烟产量的影响。
四、建立烤烟产量到户预测模型
本次烤烟产量到户预测模型建立过程中,相关的数据主要通过对藜山烟草站的139户烟农及其烟田进行实地调查,主要搜集合同面积、实际面积、根茎病害发生率、虫害发生率、有效叶片数、追肥用量和667 m2产量等数据。而烤烟产量到户预测模型的构建主要采取两步,即剔除异常数据和建立模型。
(一)剔除异常数据
在建立模型之前,首先需要对调查数据中的因变量单位面积产量进行有效性筛选。在建立模型之前,为了保证所建立模型的有效性,初步确定了有效剔除异常数据的3种方案:方案一,根据显著性差异去除;方案二,用单变量离散点检验去除;方案三,用差值分析的置信区间去除。而经过深入分析后发现,以显著性差异为标准对异常数据进行剔除虽然简单且容易操作,但其准确性相对比较差,难以满足研究的需要;单变量离散点检验方法能够确保数据的完整性,但操作起来相对比较复杂;以差值分析的置信区间去除异常数据虽然简单易行,但难以有效保证数据的完整性。小组成员围绕3种剔除方法的难易度、效果性、科学性、数据完整性和数据可行性等方面进行综合评分后,发现用单变量离散点检测去除异常数据的方法性价比相对比较高(见表1),因此,选择该方法对异常数据进行剔除。
所谓的单变量离散点检验,是指在建立预测模型的过程中,为了有效地弱化那些预测效果不佳的观测点的影响,通过boxplot.stats函数将这些点去除出去,从而确保研究效果的方法。
(二)自变量调查及处理
在对自变量进行数据调查的过程中,分别对单户烟农的基肥施用量、病虫害发生情况、有效叶片数、合同面积和实际面积进行了调查。选用的是单户农户的具有代表性地块,按照随机五点式方法调查50株。其中,病害调查选择了当地常年发生且相对其他病害较为严重的青枯病作为自变量,而虫害调查选择的是烟株平滑伤口作为评价虫害发生的自变量。选择烟株锯齿状伤口作为虫害自变量,一方面在于实际生产过程中,烟株平滑伤口调查难度较小,在实际生产工作中可有效推行;另一方面在于烟株锯齿状伤口可有效地评价烟株的整体虫害发生情况,具有代表性。病害发生率、虫害发生率、有效叶片数计算方法分别如下:
病害发生率(X3)/%=青枯病发病株/调查总株数×100
虫害发生率(X4)/%=具有锯齿状伤口的烟株/调查总株数×100
有效叶片数(X5)/片=∑(调查的各烟株的叶片数)/调查株数
(三)建立模型
本次研究的模型构建主要借助SPSS软件进行。建模主要以合同面积X1(hm2)、实际面积X2(hm2)、病害发生率X3(%)、虫害发生率X4(%)、有效叶片数X5(片)、基肥用量X6(kg/667 m2)为自变量,以单位面积产量Y(kg/667 m2)为因变量构建多元回归模型。
1.置信区间在0%~70%时的模型
置信区间在0%~70%时的模型汇总情况见表2,系数见表3。
综合上述2种置信区间内的模型结果最终确认为Y=-185.184-0.792X1+0.514X2-1.731X3-1.073X4+22.243X5+1.818X6为烤烟产量到户预测的模型,其中Y为单位面积产量,X1为合同面积,X2为实际面积,X3为病害发生率,X4为虫害发生率,X5为有效叶片数,X6为基肥用量。
五、模型的运用
对于本次研究来说,建立模型仅仅是工作中的第一部分,最重要的是将其运用到实际的烤烟产量预测中,为农户的烤烟生产和产量的掌握提供科学的依据。具体来说,烤烟产量到户预测模型的运用为产量预测和实际烤烟收购过程中的信息获取提供
支持。
(一)产量预测
通过该模型对调查的139户烟户的产量进行预测,并与实际产量进行对比,得出模型预测值与实际值的偏差,结果见表6。
通過测试可以发现,该模型的偏差在-2.98%。并且预测模型的相关系数目标值为0.6,实际值为0.679,模型预测达到目标。在单户产量检测过程中发现,产量越接近150 kg/667 m2的烟户,其偏差
(二)实际烤烟收购
在得到模型预测的产量后,除了可以对单个烟户的产量进行预测外,收购站还可以有效地掌握单站的产量预测。例如,在本次研究过程中,按照2018年收购数(上机数+代保管数量)统计,实际产量为169.54 kg/667 m2,推算值为165.50 kg/667 m2。按照2018年藜山烟草站烤烟种植面积为293.33 hm2计算:实际产量=169.54 kg/667 m2×
通过上述模型可以对烤烟收购过程中的质量问题进行一定的参考和指导,确保收购工作的效果。
六、展望
通过对烤烟产量到户预测模型的分析可以看出,该模型是基于现实数据基础上,通过科学方法所构建的模型,具有科学性和可行性。并且通过该模型可以有效预测每户烟户的单位面积产量,为精准收购和实效数据信息的充分利用提供了科学的辅助作用。但由于研究现实数据缺乏的原因,所构建的模型对于气候等自然性因素的考虑较少,进而制约了该模型在我国其他地区的应用。因此,在接下来的烤烟产量到户预测模型研究过程中,会对气象因子进行收集,探讨包含气候变量在内的更加科学有效的烤烟产量到户预测模型,为烤烟生产与销售提供指导。
参考文献:
[1]石岚.经济数学预测模型和方法在农业工程中的应用[J].农业工程,2018(10):147-149.
[2]许静,曹伟,陕娟娟,等.小麦不同生育期水肥管理与产量模型构建[J].北京农学院学报,2016(1):5-8.