02. Сводка и группировка материалов статистического наблюдения
Всякое полное статистическое исследование включает последовательность трех основных этапов:
1. статистическое наблюдение;
2. сводка и группировка результатов наблюдения;
3. анализ полученных обобщающих показателей.
Обычно в результате статистического наблюдения получают обширный массив статистических данных, которые практически невозможно подвергнуть непосредственному анализу. Поэтому на втором этапе эти статистические данные подлежат первичной статистической обработке. В результате выполнения сводки и группировки данных статистическая совокупность представляется посредством таблиц, графиков и различных обобщающих показателей, характеризующих ее свойства. Основное содержание второго этапа – это переход от характеристик Единичного к Обобщающим (сводным) показателям совокупности в целом или ее частей (групп).
Основа сводки – статистическая группировка, в процессе которой изучаемая статистическая совокупность разбивается на группы, однородные по каким-либо признаком.
При проведении группировки нужно установить:
1. Группировочные признаки – признаки, по которым будет производиться группировка. Группировочные признаки могут как количественными (стаж работы, возраст и т. п.), так и атрибутивными (не имеющие количественного значения – пол, должность, национальность).
2. Интервалы группировки – значения, отделяющие одну группу от другой.
Простая (монотетическая) группировка использует один группировочный признак. Сложная (политетическая) группировка использует несколько признаков. Обычно сложную группировку начинают с атрибутивного признака. К недостаткам сложной группировки можно отнести то, что выделенные группы включают малое число единиц наблюдения, поэтому групповые статистические показатели становятся ненадежными.
При проведении группировки необходимо определить число групп.
Если группировочный признак атрибутивный или дискретный и изменяется незначительно, то число групп равно числу различных значений признака (образование, семейное положение; число автомобилей в семье и т. п.).
В случае количественного группировочного признака число группы и интервалы группировки определяются особенностями статистической совокупности. Число групп должно быть достаточным, чтобы выявить характер совокупности, поэтому чем выше колеблемость (изменение) группировочного признака, тем больше групп требуется образовать. Если предполагается использовать равные интервалы группировки, то наиболее часто используют формулу Стерджесса
K=1+3,322×Lg N, (1.1)
Где N – общее число единиц совокупности; K – число групп.
По способу задания границ интервалы группировки бывают:
· закрытые – задаются верхняя и нижняя границы интервала (от 3 до 6);
· открытые – задается только верхняя или только нижняя граница (меньше 3, свыше 15) [1].
Закрытые интервалы бывают равные и неравные.
Величина равного интервала равна
, (1.2)
Где XMax, XMin – максимальное и минимальное значения группировочного признака.
Неравные интервалы используют, когда колеблемость признака неравномерна в пределах диапазона значений группировочного признака и требуется отразить качественное своеобразие групп.
Величины неравных интервалов могут изменяться по строго определенному закону (например, арифметической или геометрической прогрессии). Кроме того, неравные интервалы могут определяться как равнонаполненные. При этом вся совокупность разделяется на группы равного объема с числом единиц F=N/K. В ранжированном (отсортированном в порядке возрастания или убывания) ряду отсчитывают F единиц, составляющих первую группу и т. д. В этом случае границы интервалов определяются максимальным и минимальным значениями признака в группе.
Величина интервала может определяться как разность верхней и нижней границ интервала.
После определения группировочного признака и границ групп строится ряд распределения.
Статистический ряд распределения – это упорядоченное распределение единиц изучаемой совокупности на группы по группировочному признаку.
Ряд распределения состоит из следующих элементов:
· Варианты (это отдельные возможные значения признаков) или Интервалы;
· Частоты (обозначаются F) – это численности отдельных вариантов или каждой группы, полученной в результате группировки;
· Частости (обозначаются W) – это доля отдельных вариант или групп в общей численности совокупности.
Атрибутивный ряд распределения образуется при группировке по качественному признаку, не имеющему количественного выражения (профессия, должность, образование, пол и т. д.).
Вариационный Ряд распределения образуется при группировке по количественному признаку (число работающих, возраст, заработная плата и т. д.).
Вариационные ряды в зависимости от характера вариации признака подразделяются на Дискретные и Интервальные.
· Дискретный ряд получается при группировке по дискретному признаку. Эти признаки могут принимать только конечное число определенных значений (обычно это целочисленные значения – количество детей в семье, число работников на предприятии и т. д.).
· Интервальный ряд получается при группировке по непрерывному признаку. Кроме того, интервальные ряды могут строится по дискретным признакам, если число различных значений группировочного признака велико.
Ряд распределения представляет собой таблицу: одна графа содержит конкретные значения признака (варианты или интервалы признака), а другая – частоты и/или частости.
В процессе проведение группировки составляют рабочую таблицу.
Таблица 1.1 – Примерный вид рабочей таблицы
Группировка единиц совокупности по группировочному признаку X
FI – частота попадания в I-ый интервал, .
После проведения группировки составляется сводная таблица, в которой представлен полученный ряд распределения. В нее также заносятся итоговые данные по группам и другие дополнительные показатели. Сводную таблицу используют для анализа результатов группировки.
Таблица 1.2 – Примерный вид сводной таблицы
Название таблицы
Кроме табличного, возможно графическое представление вариационного ряда в виде Полигона, Гистограммы, Кумуляты и Огивы.
Полигон в основном применяют для дискретных рядов. По оси абсцисс откладывают варианты признака, а по оси ординат – частоты или частости.
Гистограмма Частот (частостей) – это столбиковая диаграмма. Гистограмму применяют для интервальных рядов. Если интервалы равные, то основания столбцов по оси абсцисс – это интервалы изучаемого признака, а высоты столбиков – это частоты (частости). Если интервалы неравные то, чтобы площади столбцов равнялись частоте или частости высоту I-го столбца Bi рассчитывают по формуле
или (1.3)
Где – абсолютная (относительная) плотность; Fi (Wi) – частота (частость) I-ого интервала; Hi – величина I-ого интервала.
Кумулята (огива) – это графики кумулятивного ряда снизу (сверху). Кумулятивный ряд – это ряд накопленных частот (частостей). Его получают путем объединения последовательных вариант или групповых интервалов и суммированием соответствующих им частот (частостей).
< Предыдущая | Следующая > |
---|