Меню

Построить гистограмму по набору чисел

2.3. Интервальный ряд. Гистограмма

При обработке большого числа экспериментальных данных их предварительно группируют и оформляют в виде так называемого Интервального ряда.

Пример 1. Средняя месячная зарплата за год каждо­го из пятидесяти случайно отобранных работников хо­зяйства такова:

317 304 230 285 290 320 262 274 205 180 234 221 241 270 257 290 258 296 301 150 160 210 235 308 240 370 180 244 365 130 170 250 370 267 288 231 253 315 201 256 279 285 226 367 247 252 320 160 215 350.

Здесь переменной величиной X является средняя месячная зарплата. Как видно из приведенных данных, наименьшее значение величины Х равно 130, а наи­большее — 370. Таким образом, диапазон наблюдений представляет собой интервал 130 – 370, длина которого равна 370 – 130 = 240.

Разобьем диапазон наблюдений на части (разряды) Так, чтобы каждый разряд содержал несколько экспе­риментальных данных. Например, разделим интервал 130 – 370 на 6 равных частей, тогда длина каждого раз­ряда будет 40. Границами разрядов будут числа 130, 170, 210, 250, 290, 330, 370 (рис. 3).

Подсчитаем число значений, попавших в каждый разряд. Например, в первый разряд попадают следующие числа: 150 (1 раз), 160 (2 раза), 130 (1 раз), 170 (1 раз). Поскольку число 170 находится на границе между пер­вым и вторым разрядами, мы включим его и в первый и во второй разряды, но с кратностью 1/2. Сложив кратно­сти, мы получим Абсолютную частоту первого разряда:

Разделив абсолютную частоту на число П всех наблюде­ний, получим Относительную частоту Попадания величины Х в первый разряд:

Проделав вычисления для всех разрядов, мы полу­чим следующую таблицу.

Читайте также:  Как построить фундамент на крыше в симс 3

Здесь Mi — абсолютные частоты, относитель­ные частоты. Табл. 6 называется Интервальным рядом.

Сумма всех абсолютных частот равна числу всех приведенных в табл. 6 значений переменной величины:

4,5 + 5 + 12 + 14,5 + 9 + 5 = 50.

Это свойство используется для проверки правильности вычислений. Из него следует, что сумма всех относи­тельных частот равна единице:

0,09 + 0,10 + 0,24 + 0,29 + 0,18 + 0,10 = 1.

Для того, чтобы найти долю тех значений величи­ны. X, которые попадают в некоторый интервал, нужно найти площадь той части гистограммы, основанием которой является данный интервал.

Определим, например, долю значений величины X, Принадлежащих интервалу 210 – 300. Для этого вычислим площадь фигуры с основанием 210 – 300 (на рисунке она выделена штриховкой). Площади первых двух прямоуголь­ников, составляющих фигуру, равны соответственно = 0,24 и = 0,29; площадь третьего равна 10 • 0,0045 = 0,045. Сумма площадей 0,24 + 0,29 + 0,045 = 0,575 и дает нужное число. Иными словами, 57,5% значений величины Х находится в границах от 210 до 300.

Как мы заметили в начале параграфа, интервальный ряд составляют при обработке больших массивов ин­формации. В таких случаях, как правило, отдельные значения величины Х не фиксируются, а подсчитывает­ся количество ее значений, попавших в каждый разряд (т. е. абсолютные частоты). Поэтому исследователь не знает отдельных значений наблюдаемой величины Х и не может воспользоваться формулами (1), (5) и (7) для вычисления среднего арифметического, дисперсии и среднего квадратического отклонения. Но приближен­ное значение этих числовых характеристик можно най­ти с помощью интервального ряда. Для этого сначала находят середины разрядов: (здесь K — Число всех разрядов интервального ряда); затем прово­дят вычисления по следующим формулам:

Результаты расчетов по данным табл. 6 сведены в сле­дующую таблицу:

Читайте также:  Можно ли построить дом в рассрочку

В первом столбце записаны номера разрядов, во вто­ром — числа (середины разрядов), в третьем — произведения , и т. д. Таблица заполняется по столбцам. Середину разряда вычисляем как полусумму его границ:

Согласно формуле (8), сумма чисел третьего столбца да­ет среднее арифметическое = 256,8. Оно записано в последней строке этого столбца. Сумма чисел последнего столбца равна дисперсии D = 3113,75 [см. формулу (9)]. Наконец, по формуле (10) определяем среднее квадратическое отклонение S = = 55,80.

Интервальный ряд, гистограмма и числовые характеристики, найденные по формулам (8)—(10), составляют Математическую модель средней заработной платы. Она используется при проведении различных социологи­ческих исследований, например, при определении уров­ня жизни работников какой-либо отрасли.

1. Для проведения демографических исследований выбрали 50 семей и получили следующие данные о ко­личестве членов семьи:

2 5 3 4 1 3 6 2 4 3 4 1 3 5 2 3 4 4 3 3 2 5 3 4 4

3 3 4 4 3 2 5 3 1 4 3 4 2 6 3 2 3 1 6 4 3 3 2 1 7.

Укажите переменную величину; составьте табл. 5; найдите числовые характеристики — среднее арифмети­ческое, дисперсию, среднее квадратическое отклонение.

2. Управление сельского хозяйства Дрюковского района представило сводку по пятидесяти хозяйствам. Согласно этой сводке, урожайность ржи в них составила (в центнерах с гектара):

Постройте интервальный ряд (табл. 6), гистограмму, составьте табл. 7 и по формулам (8)-(10) найдите число­вые характеристики — среднее арифметическое, диспер­сию, среднее квадратическое отклонение.

Источник

Гистограмма распределения в EXCEL

Гистограмма поможет визуально оценить распределение набора данных, если:

Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.

Построение гистограммы с помощью надстройки Пакет анализа

Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).

Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).

Читайте также:  Как правильно построить отношения с мужчиной на расстоянии

Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1

Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ).

Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.

Построение гистограммы распределения без использования надстройки Пакет анализа

Порядок действий при построении гистограммы в этом случае следующий:

В итоге можно добиться вот такого результата.

Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot).

На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.

Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).

Источник

Adblock
detector