您的浏览器不支持JavaScript,请开启后继续

China Heating,Ventilation and Air Conditioning
联系热线:010-64693287 / 010-64693285

住宅用多联机使用人行为的大数据分析

  • 作者:
  • 中国暖通空调网
  • 发布时间:
  • 2019-07-23

清华大学建筑学院建筑节能研究中心      钱明杨   燕达

空调设备及系统运行节能国家重点实验室      刘华

摘   要:空调人行为是建筑能耗的重要影响因素,本文以住宅用多联机系统的室内机为研究对象,从某空调大数据监控平台获取了499套多联机系统运行数据,通过大数据分析方法进行住宅用空调人行为现状的研究。本文使用的数据挖掘分析方法主要包括统计分析方法和聚类分析方法。通过分析获取了实际的住宅空调使用时长、用户空调设定参数和室内环境的实际分布情况以及典型的用户使用模式,并提出了对于多联机设计与运行的建议。

关键词:多联机;人行为;大数据分析;居住建筑

       0   引 言

       空调人行为是建筑能耗的重要印象因素,不同用户的行为有巨大的差异性[1]。由于其巨大的差异性,使用传统的测试方法无法全面地获取不同用户的空调人行为,而大规模调研问卷的调研结果与实际的空调人行为存在一定差距,并且调研结果的准确性受到问卷的设计和调研用户分布的影响[2]。另一方面,随着智能家居和数据传输存储技术的发展,大规模的建筑空调系统数据的获取变得更加容易[3]。数据挖掘分析方法可以很好地用于大规模的建筑空调系统大数据的研究 [4],所以数据挖掘分析方法是可以用于空调人行为现状的研究。

       数据挖掘分析方法已经应用于建筑科学领域的各个领域。Hou, Z.等人应用数据挖掘方法发现空调系统中传感器的异常情况[5]。Kusiak,A. 等人通过数据挖掘方法提出了制冷量模型来预测制冷量和出风温度[6]。Kim, H.等人使用数据可视化的方法进行了建筑性能设计 [7] 。Yu, Z.等人利用关联规则方法挖掘出建筑空调运行中的故障 [8] 。Noussan 等人利用2.9百万户住宅能耗数据进行行业对标 [9] 。数据分析方法在建筑人行为领域也有广泛的应用,Duarte, C.等人利用数据挖掘方法获取了办公建筑中的典型人行为模式[10] 。 D’Oca, S.等人提出了一套数据挖掘框架用于挖掘16个办公室的人行为 [11] 。An, J.等人利用数据聚类方法获取了一个住宅小区里的空调人行为 [12] 。但是,已有的研究中,仅分析了同一地区的建筑人行为,不同全面地获取建筑人行为实际情况。所以获取能覆盖更多地区的空调系统数据非常重要。

       多联机系统通常是一个室外机与多个室内机通过管路连接的制冷空调系统。多联机系统的运行数据可以用于获取实际空调用户人行为,而且由于多联机系统的运行模式复杂,所以空调人行为对多联机能耗影响非常大[13]

       本文将以住宅用多联机系统的室内机为研究对象,从某空调大数据监控平台获取了499套多联机系统运行数据,通过大数据分析方法进行住宅用空调人行为现状的研究。本文使用的数据挖掘分析方法主要包括统计分析方法和聚类分析方法。通过分析获取了实际的住宅空调使用时长、用户空调设定参数和室内环境的实际分布情况以及典型的用户使用模式,并提出了对于多联机设计与运行的建议。下文第一部分将介绍数据集和技术路线,第二部分对数据挖掘结果进行分析,第三部分讨论了数据挖掘结果的潜在工程应用,最后一部分给出了结论与建议。

       1   数据集与技术路线

       1.1   数据集介绍

       本文从某空调大数据监测平台获取了499套多联机系统运行数据,覆盖了中国五大气候区,五大气候区的样本比例如图 1所示(其中144套多联机系统位置未知,没有画在图中),其中样本主要分布在夏热冬冷地区。

图 1   不同气候区的样本比例

       数据集中所有的多联机系统均安装在居住建筑中,每个多联机系统运行数据都可以代表一个住户的空调使用人行为。不同多联机系统的室内机个数从2到31个不等,每户基本上都是一个房间一个室内机。不同个数室内机的系统样本分布情况如图 2所示。其中室内机个数4个的多联机系统占比最多。

图 2   不同个数的室内机系统的样本数量分布情况

 

       数据集中包含了室内机的用户设定参数以及室内环境参数,具体参数的名称及范围如表 1所示。每个室内机均包含表中的9个参数。

表 1   数据集的具体参数表

本文研究的数据集中每个室内机的数据监测时间从2016年6月到9月和从2016年11月到2017年11月。由于监测时间完全覆盖了多联机系统的制冷季,本文主要针对多联机的制冷工况进行分析。

       1.2   技术路线

       本文的研究技术路线如图 3所示,首先,对大规模的数据集进行预处理,预处理包括有效样本的筛选、数据清洗和数据整理。然后,本文使用了大数据分析方法包括统计分析和聚类分析方法,获取了多联机使用行为的分布和多联机使用典型模式。最后基于数据挖掘结果对多联机系统的设计与运行提出工程建议。

图 3   技术路线图

       数据预处理的方法主要包括样本筛选、数据清洗和数据整理。首先将数据集的制冷模式样本进行筛选,其次将数据为“NULL”的值清洗掉,最后将数据根据时间的顺序整理成每小时的标准数据集。

       为了全面获取不同用户的空调使用行为分布情况,本文提出了空调使用行为指标,如表 2所示,并针对不同指标进行运行累积时间的统计,例如,统计室内设定温度为26℃的数据记录,计算出该工况的累积小时数占总运行累积小时数的比例。计算完所有的设定温度的累积小时数比例,可以获取完整的分布情况。为了能获取单个用户的使用行为,本文认为一个室内机代表单个用户的空调人行为,最后还对不同月份的数据情况进行了讨论。

表 2   空调使用行为指标表

       为了获得多联机的典型使用行为,本文使用聚类分析方法。聚类分析方法就是将数据样本进行分类,获得不同聚类的类间距离大,类内距离小。K-means聚类方法是常用的聚类分析方法之一[14]。K-means聚类方法是通过迭代计算将N个输入的向量数据分组到C个聚类中,最初确定C个聚类的权重,并且对于不同聚类的数据计算到聚类中心的距离,计算公式如公式(1)所示:

       其中x = (x1, x2… xn),y = (y1, y2…, yn)是两列n维的向量;通常情况下聚类为欧式距离,取p =2。

       DBI指数(Davies–Bouldin index)是用于衡量聚类效果优劣的指标,可以帮助确定聚类的个数,DBI指数越低说明聚类的效果越好。DBI指数如公式(2)所示:

       其中Si代表聚类内部的分散程度;Mi, j代表聚类i与其他聚类之间的分散程度;N代表聚类的个数。

       2   大数据分析结果

       2.1   多联机使用行为的分布

       通过数据的预处理,从数据集中筛选出了480套多联机系统数据进行数据挖掘工作,其中包含了2064个室内机。多联机室内机的空调使用时长的分布如图 4所示,多联机室内机的制冷时长最大值是2486小时,所有室内机的空调使用时长平均值为183小时。

图 4    多联机室内机空调使用时长分布

       不同月份的空调使用时长的四分位图如图 5所示,可知不同住户的使用时长有巨大的差异性,并且其中8月的制冷时间最长。

图 5   不同月份的空调使用时长四分位图

       室内机设定温度的分布如图 6所示,设定温度分布呈现双峰分布,分别在25℃和16℃两处达到峰值。室内机设定风档的分布如图 7所示,低风档与高风档占了运行总时间的80%。扫风模式的开关状态情况如图 8所示,有58%的运行总时间室内机开启了上下扫风,而左右扫风模式仅开启4%的运行总时间。

图 6   设定温度的分布情况

图 7   室内机风档分布

图 8   上下扫风与左右扫风状态分布

多联机室内机运行时的不同环境温度的分布如图 9所示,室内环境温度分布为单峰分布,在室内环境温度26℃的时候达到峰值。

图 9   室内机运行时的室内环境温度分布情况

       2.2   多联机典型空调使用模式

       通常情况下单个多联机系统包括了一个室外机和多个室内机。对多联机系统的运行优化最为重要的是什么时间开启了多少个室内机,即为多联机的空调使用模式。本文定义了逐时的同时使用系数来代表一天的空调使用模式。每个小时内运行的室内机数量除以所有室内机的数量定义为同时使用系数,图 10是逐时的空调使用模式的例子,通过样本筛选,最后将13,836天的逐时空调使用模式用于聚类分析。

图 10   例子:4台室内机的多联机系统的逐时使用模式

       通过试算,获取了不同聚类数量对应的DBI指数,如图 11所示,聚类数量为5个时的DBI指数最小,对应的聚类效果最好。

图 11   不同聚类数量对应的DBI指数

       通过K-means聚类算法获取了5种典型多联机空调使用模式,如图 12所示,右侧为5种典型多联机空调使用模式的聚类中心,左侧是5个聚类数据集的部分样本,其中不同颜色对应了不同的同时使用系数:黑色代表100%、黄色代表50%、白色代表0%。

图 12   聚类结果图

       5种典型多联机使用模式的聚类数据集的样本数量比例如图 13所示。聚类4代表了高同时使用系数的使用模式,样本量仅占所有样本的5%,在其中仅有36天是全天24小时同时使用系数是100%,即全时间全空间使用空调,这36天仅占所有样本的0.26%。由此可见,中国住宅建筑的住户往往不会全时间全空间使用空调。


图 13   不同聚类的样本数量比例

       3   大数据分析的潜在工程应用讨论

       大数据分析方法可以全面地获取大规模实际空调使用行为现状,包括了空调使用时长、用户设定参数和室内环境情况以及典型多联机使用模式,可以有效地帮助多联机系统的设计与运行。

       首先,大数据分析结果表明多联机的室内机空调使用行为存在巨大的差异性,并且在8月的空调使用时长普遍高于其他月份,所以在多联机系统的设计阶段需要对8月运行工况更加关注。

       其次,多联机室内机的设定参数分布可以帮助产品开发者理解用户的实际需求。例如用户的设定温度在25~26℃达到峰值,说明大部分用户需求的室内环境温度设定值为25~26℃。而对应的设定温度16℃达到峰值,证明该部分用户制冷空调需求高,需要提高空调系统的制冷能力。而对于扫风模式,上下扫风模式开启时间远远高于左右扫风模式,可见上下扫风模式更有利于提高住户的热舒适性。

       然后,室内环境温度分布可以反映住户的热舒适温度的分布情况,室内环境温度26℃达到峰值代表了26℃可以满足大部分用户的热舒适需求。

       最后,聚类分析的结果表明中国住宅建筑的住户往往不会全时间全空间使用空调,对于在大多数情况下一个住户中的所有房间空调的同时使用系数是低于0.5的,会导致多联机系统长时间处于部分负荷工况,这可以帮助新型多联机系统的开发研究。典型的多联机使用模式可以帮助多联机系统调整运行用更少的能耗获取更优的用户热舒适。

       4   结论

       本文以住宅用多联机系统的室内机为研究对象,从某空调大数据监控平台获取了499套多联机系统运行数据,通过大数据分析方法进行住宅用空调人行为现状的研究,获取了以下主要结论:

     (1)多联机系统的空调使用行为存在巨大的差异性,全年的多联机室内机的制冷时长最大值是2486小时,所有室内机的空调使用时长平均值为183小时。并且对于不同月份的分析中发现,8月的空调使用时长最长。

     (2)多联机系统室内机设定温度是双峰分布,分别在25℃和16℃达到峰值。而室内机扫风模式情况,有58%的运行总时间室内机开启了上下扫风,而左右扫风模式仅开启4%的运行总时间。

     (3)实际室内环境温度分布是单峰分布,在26℃达到峰值,这说明26℃可以满足大部分居住建筑的用户热舒适需求。

     (4)典型多联机使用模式分析结果表明中国住宅建筑的住户往往不会全时间全空间使用空调,并且导致多联机系统长时间处于低负荷率运行,这需要多联机系统的设计和运行时更加关注低负荷运行工况。

参考文献

       [1] Yan, D., Hong, T., Dong, B., Mahdavi, A., D’Oca, S., Gaetani, I., & Feng, X. (2017). IEA EBC Annex 66: Definition and simulation of occupant behavior in buildings. Energy and Buildings, 156, 258–270.

       [2] Feng, X., Yan, D., Wang, C., & Sun, H. (2016). A preliminary research on the derivation of typical occupant behavior based on large-scale questionnaire surveys. Energy and Buildings, 117, 332–340.

       [3] Fan, C., Xiao, F., Li, Z., & Wang, J. (2018). Unsupervised data analytics in mining big building operational data for energy efficiency enhancement: a review. Energy and Buildings, 159, 296–308.

       [4] 陈焕新,刘江岩,胡云鹏,李冠男.大数据在空调领域的应用[J].制冷学报,2015,36(04):16–22.

       [5] Hou, Z., Lian, Z., Yao, Y., & Yuan, X. (2006). Data mining based sensor fault diagnosis and validation for building air conditioning system. Energy Conversion and Management, 47(15–16), 2479–2490.

       [6] Kusiak, A., & Li, M. (2010). Cooling output optimization of an air handling unit. Applied Energy, 87(3), 901–909.

       [7] Kim, H., Stumpf, A., & Kim, W. (2011). Analysis of an energy efficient building design through data mining approach. Automation in construction, 20(1), 37–43.

       [8] Yu, Z. J., Haghighat, F., Fung, B. C., & Zhou, L. (2012). A novel methodology for knowledge discovery through mining associations between building operational data. Energy and Buildings, 47, 430–440.

       [9] Noussan, M., & Nastasi, B. (2018). Data analysis of heating systems for buildings—A tool for energy planning, policies and systems simulation. Energies, 11(1), 233.

       [10] Duarte, C., Van Den Wymelenberg, K., & Rieger, C. (2013). Revealing occupancy patterns in an office building through the use of occupancy sensor data. Energy and Buildings, 67, 587–595.

       [11] D’Oca, S., & Hong, T. (2015). Occupancy schedules learning process through a data mining framework. Energy and Buildings, 88, 395–408.

       [12] An, J., Yan, D., & Hong, T. (2018). Clustering and statistical analyses of air-conditioning intensity and use patterns in residential buildings. Energy and Buildings, 174, 214–227.

       [13] Yu, X., Yan, D., Sun, K., Hong, T., & Zhu, D. (2016). Comparative study of the cooling energy performance of variable refrigerant flow systems and variable air volume systems in office buildings. Applied energy, 183, 725–736.

       [14] Meesrikamolkul W, Niennattrakul V, Ratanamahatana C A. Shape-based clustering for time series data[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2012:530–541.

       [15] Davies, D. L., & Bouldin, D. W. (1979). A cluster separation measure. IEEE transactions on pattern analysis and machine intelligence, (2), 224–227.

       备注:本文收录于《建筑环境与能源》2019年5月刊总第21期。
                 版权归论文作者所有,任何形式转载请联系作者。