Кластерная модель анализа больших данных в животноводческом производстве
Аннотация
Интеллектуальные методы анализа, к которым относится задача кластеризации, все шире применяются в сфере экономики АПК. Задача кластеризации относится к классу задач обучения без учителя. Суть задачи – группировка объектов исследования по принципу схожести. Если рассматривать регионы РФ с точки зрения производства животноводческой продукции, их так же можно автоматически сгруппировать по принципу схожести. Метод k-средних на данный момент является основным методом решения задач кластеризации. Основным этапом задачи классификации является формирование набора данных, в который входят все основные характеристики объекта. Например, если рассматривать производство региона с точки зрения отрасли животноводства, то логичнее будет использовать х1 – производство мяса на душу населения и х2 – производство молока на душу населения. Критерием выбора количества кластеров является суммарная среднеквадратическая ошибка. Всего в анализе участвовало 79 регионов РФ. Оказалось, что рациональнее разбивать все регионы РФ на 7 кластеров схожести. Были выделены регионы с высоким производством молока и мяса (кластеры 4 и 6), регионы со средним производством молока и мяса (кластеры 2, 3, 5) и регионы с низким производством молока и мяса (кластеры 0, 1).
Cluster model for big data analysis in livestock production
page. 67-74
Abstract
Intelligent methods of analysis, which include the problem of clustering, are widely used in the field of economics of the agro-industrial complex. The clustering problem belongs to the class of unsupervised learning problems. The essence of the problem is the grouping of research objects according to the use of similarity. If the regions of the Russian Federation are selected in terms of livestock production, they can also be automatically grouped according to the similarity recipe. The k-means method is currently a successful method for solving clustering problems. The main stage of solving the problem is the collection of data, which includes all the main characteristics of the object. For example, if you set up production in the region in terms of animal husbandry, then it would be more logical to x1 - meat production per capita and x2 – milk production per capita. The criterion for choosing the number of clusters is the root mean square error. In total, 79 regions of the Russian Federation participated in the analysis. It turned out that the potential to break all regions of the Russian Federation into 7 clusters of similarity. Regions with high milk and meat production (clusters 4 and 6), regions with high milk and meat production (clusters 2, 3, 5) and regions with low milk and meat production (clusters 0, 1) were identified.