Построим диаграмму распределения в Excel. А также рассмотрим подробнее функции круговых диаграмм, их создание.
График нормального распределения имеет форму колокола и симметричен относительно среднего значения. Получить такое графическое изображение можно только при огромном количестве измерений. В Excel для конечного числа измерений принято строить гистограмму.
Внешне столбчатая диаграмма похожа на график нормального распределения. Построим столбчатую диаграмму распределения осадков в Excel и рассмотрим 2 способа ее построения.
Имеются следующие данные о количестве выпавших осадков:
Первый способ. Открываем меню инструмента «Анализ данных» на вкладке «Данные» (если у Вас не подключен данный аналитический инструмент, тогда читайте как его подключить в настройках Excel):
Выбираем «Гистограмма»:
Задаем входной интервал (столбец с числовыми значениями). Поле «Интервалы карманов» оставляем пустым: Excel сгенерирует автоматически. Ставим птичку около записи «Вывод графика»:
После нажатия ОК получаем такой график с таблицей:
В интервалах не очень много значений, поэтому столбики гистограммы получились низкими.
Теперь необходимо сделать так, чтобы по вертикальной оси отображались относительные частоты.
Найдем сумму всех абсолютных частот (с помощью функции СУММ). Сделаем дополнительный столбец «Относительная частота». В первую ячейку введем формулу:
Способ второй. Вернемся к таблице с исходными данными. Вычислим интервалы карманов. Сначала найдем максимальное значение в диапазоне температур и минимальное.
Чтобы найти интервал карманов, нужно разность максимального и минимального значений массива разделить на количество интервалов. Получим «ширину кармана».
Представим интервалы карманов в виде столбца значений. Сначала ширину кармана прибавляем к минимальному значению массива данных. В следующей ячейке – к полученной сумме. И так далее, пока не дойдем до максимального значения.
Для определения частоты делаем столбец рядом с интервалами карманов. Вводим функцию массива:
- Вычислим относительные частоты (как в предыдущем способе).
- Построим столбчатую диаграмму распределения осадков в Excel с помощью стандартного инструмента «Диаграммы».
- Частота распределения заданных значений:
Круговые диаграммы для иллюстрации распределения
С помощью круговой диаграммы можно иллюстрировать данные, которые находятся в одном столбце или одной строке. Сегмент круга – это доля каждого элемента массива в сумме всех элементов.
С помощью любой круговой диаграммы можно показать распределение в том случае, если
- имеется только один ряд данных;
- все значения положительные;
- практически все значения выше нуля;
- не более семи категорий;
- каждая категория соответствует сегменту круга.
На основании имеющихся данных о количестве осадков построим круговую диаграмму.
Доля «каждого месяца» в общем количестве осадков за год:
Круговая диаграмма распределения осадков по сезонам года лучше смотрится, если данных меньше. Найдем среднее количество осадков в каждом сезоне, используя функцию СРЗНАЧ. На основании полученных данных построим диаграмму:
Получили количество выпавших осадков в процентном выражении по сезонам.
Источник: https://exceltable.com/grafiki/diagramma-raspredeleniya
Динамическая гистограмма или график распределения частот в Excel — Microsoft Excel для начинающих
В двух словах: Добавляем полосу прокрутки к гистограмме или к графику распределения частот, чтобы сделать её динамической или интерактивной.
Уровень сложности: продвинутый.
На следующем рисунке показано, как выглядит готовая динамическая гистограмма:
Что такое гистограмма или график распределения частот?
Гистограмма распределения разбивает по группам значения из набора данных и показывает количество (частоту) чисел в каждой группе. Такую гистограмму также называют графиком распределения частот, поскольку она показывает, с какой частотой представлены значения.
В нашем примере мы делим людей, которые вызвались принять участие в мероприятии, по возрастным группам. Первым делом, создадим возрастные группы, далее подсчитаем, сколько людей попадает в каждую из групп, и затем покажем все это на гистограмме.
На какие вопросы отвечает гистограмма распределения?
Гистограмма – это один из моих самых любимых типов диаграмм, поскольку она дает огромное количество информации о данных.
В данном случае мы хотим знать, как много участников окажется в возрастных группах 20-ти, 30-ти, 40-ка лет и так далее. Гистограмма наглядно покажет это, поэтому определить закономерности и отклонения будет довольно легко.
«Неужели наше мероприятие не интересно гражданам в возрасте от 20 до 29 лет?»
Возможно, мы захотим немного изменить детализацию картины и разбить население на две возрастные группы. Это покажет нам, что в мероприятии примут участие большей частью молодые люди:
Динамическая гистограмма
После построения гистограммы распределения частот иногда возникает необходимость изменить размер групп, чтобы ответить на различные возникающие вопросы. В динамической гистограмме это возможно сделать благодаря полосе прокрутки (слайдеру) под диаграммой. Пользователь может увеличивать или уменьшать размер групп, нажимая стрелки на полосе прокрутки.
Такой подход делает гистограмму интерактивной и позволяет пользователю масштабировать ее, выбирая, сколько групп должно быть показано. Это отличное дополнение к любому дашборду!
Как это работает?
Краткий ответ: Формулы, динамические именованные диапазоны, элемент управления «Полоса прокрутки» в сочетании с гистограммой.
Формулы
Чтобы всё работало, первым делом нужно при помощи формул вычислить размер группы и количество элементов в каждой группе.
Чтобы вычислить размер группы, разделим общее количество (80-10) на количество групп. Количество групп устанавливается настройками полосы прокрутки. Чуть позже разъясним это подробнее.
Далее при помощи функции ЧАСТОТА (FREQUENCY) я рассчитываю количество элементов в каждой группе в заданном столбце. В данном случае мы возвращаем частоту из столбца Age таблицы с именем tblData.
=ЧАСТОТА(tblData[Age];C13:C22)
=FREQUENCY(tblData[Age],C13:C22)
Функция ЧАСТОТА (FREQUENCY) вводится, как формула массива, нажатием Ctrl+Shift+Enter.
Динамический именованный диапазон
В качестве источника данных для диаграммы используется именованный диапазон, чтобы извлекать данные только из выбранных в текущий момент групп.
Когда пользователь перемещает ползунок полосы прокрутки, число строк в динамическом диапазоне изменяется так, чтобы отобразить на графике только нужные данные. В нашем примере задано два динамических именованных диапазона: один для данных – rngGroups (столбец Frequency) и второй для подписей горизонтальной оси – rngCount (столбец Bin Name).
Элемент управления «Полоса прокрутки»
Элемент управления Полоса прокрутки (Scroll Bar) может быть вставлен с вкладки Разработчик (Developer).
На рисунке ниже видно, как я настроил параметры элемента управления и привязал его к ячейке C7. Так, изменяя состояние полосы прокрутки, пользователь управляет формулами.
Гистограмма
График – это самая простая часть задачи. Создаём простую гистограмму и в качестве источника данных устанавливаем динамические именованные диапазоны.
Есть вопросы?
Что ж, это был лишь краткий обзор того, как работает динамическая гистограмма.
Да, это не самая простая диаграмма, но, полагаю, пользователям понравится с ней работать. Определённо, такой интерактивной диаграммой можно украсить любой отчёт.
Более простой вариант гистограммы можно создать, используя сводные таблицы.
Пишите в х любые вопросы и предложения. Спасибо!
Оцените качество статьи. Нам важно ваше мнение:
Источник: https://office-guru.ru/excel/dinamicheskaja-gistogramma-ili-grafik-raspredelenija-chastot-v-excel-470.html
Диаграмма Парето
169868 13.07.2013 Скачать пример
Возможно вы уже слышали про «Закон Парето» или «Принцип 20/80».
В конце 19 века итальянский социолог и экономист Вильфредо Парето обнаружил, что распределение богатства в обществе неравномерно и подчиняется определенной зависимости: с ростом обеспеченности количество богатых людей уменьшается в геометрической прогрессии с постоянным коэффициентом (среди итальянских домохозяйств 80% доходов было у 20% семей). В дальнейшем эту идею в своей книге развил Ричард Кох, предложивший формулировку универсального «Принципа 20/80» (20% усилий дают 80% результата). На практике этот закон обычно выражается не в таких красивых цифрах (почитайте «Длинный хвост» Криса Андерсона), но отчетливо показывает неравномерность распределения ресурсов, прибыли, затрат и т.д.
В бизнес-анализе часто строят диаграмму Парето, отображающую эту неравномерность. С ее помощью можно наглядно показать, например, какие товары или клиенты приносят наибольшую прибыль. Выглядит она обычно так:
Ее основные особенности:
- Каждый синий столбец гистограммы представляет собой прибыль по товару в абсолютных единицах и откладывается по левой оси.
- Оранжевый график представляет собой накопленный процент прибыли (т.е. долю прибыли нарастающим итогом).
- На условной границе в 80% обычно рисуют пороговую горизонтальную линию для наглядности. Все товары левее точки пересечения этой линии с графиком накопленной прибыли — приносят нам 80% денег, все товары правее — оставшиеся 20%.
Давайте разберем как построить диаграмму Парето в Microsoft Excel своими силами.
Вариант 1. Простая диаграмма Парето по готовым данным
Если исходные данные попали к вам в виде подобной таблицы (т.е. уже в готовом виде):
… то делаем следующее.
Сортируем таблицу по убыванию прибыли (вкладка Данные — Сортировка) и добавляем столбец с формулой для расчета накопленного процента прибыли:
Эта формула делит суммарную накопленную прибыль с начала списка до текущего товара на общую прибыль по всей таблице. Также добавляем столбец с константой 80% для создания в будущей диаграмме горизонтальной пороговой пунктирной линии:
Выделяем все данные и строим обычную гистограмму на вкладке Вставка — Гистограмма (Insert — Column Chart). Должно получиться примерно следующее:
Ряды с процентами на полученной диаграмме нужно отправить по вторичной (правой) оси. Для этого нужно выделить ряды мышью, но это может быть сложно, поскольку их плохо видно на фоне больших столбцов прибыли. Так что лучше воспользоваться для выделения выпадающим списком на вкладке Макет (Layout) или Формат (Format):
Затем щелкнуть по выделенному ряду правой кнопкой мыши и выбрать команду Формат ряда (Format Data Series) и в появившемся окне выбрать опцию По вторичной оси (Secondary Axis). В итоге наша диаграмма начнет выглядеть так:
Для рядов Накопленная доля прибыли и Порог надо поменять тип диаграммы со столбцов на линию. Для этого щелкните по каждому из этих рядов и выберите команду Изменить тип диаграммы для ряда (Change Series Chart Type).
Останется выделить горизонтальный ряд Порог и отформатировать его так, чтобы он стал похож на линию отсечки, а не на данные (т.е. убрать маркеры, сделать линию красной пунктирной и т.д.). Все это можно сделать, щелкнув по ряду правой кнопкой мыши и выбрав команду Формат ряда (Format Data Series). Теперь диаграмма примет окончательный вид:
По ней можно сделать вывод, что 80% прибыли приносят 5 первых товаров, а на все остальные товары правее картофеля приходится только 20% прибыли.
В Excel 2013 можно поступить еще проще — воспользоваться новым встроенным комбинированным типом диаграммы сразу при построении графика:
Вариант 2. Сводная таблица и сводная диаграмма Парето
Что же делать, если для построения нет готовых данных, а есть только исходная необработанная информация? Предположим, что в начале у нас есть таблица с данными продаж вот такого вида:
Чтобы построить по ней диаграмму Парето и выяснить какие товары лучше всего продаются, придется сначала проанализировать исходные данные. Проще всего это сделать с помощью сводной таблицы.
Выделим любую ячейку в исходной таблице и воспользуемся командой Вставка — Сводная таблица (Insert — Pivot Table).
В появившемся промежуточном окне ничего не меняем и жмем ОК, затем в появившейся справа панели переносим мышью поля исходных данных из верхней части в нижние области макета будущей сводной таблицы:
- В итоге должна получиться сводная таблица с суммарной выручкой по каждому товару:
- Сортируем ее по убыванию выручки, установив активную ячейку в столбец Сумма по полю Выручка и используя кнопку сортировки От Я до А (From Z to A) на вкладке Данные (Data).
Теперь нужно добавить вычисляемый столбец с накопленной процентной выручкой. Для этого еще раз перетащите поле Выручка в область Значения (Values) на правой панели, чтобы получить дубликат столбца в сводной.
Затем щелкните по клонированному столбцу правой кнопкой мыши и выберите команду Дополнительные вычисления — % от суммы с нарастающим итогом в поле (Show Data As — % Running Total In).
В появившемся окне выберите поле Наименование, по которому сверху-вниз будут накапливаться проценты выручки. На выходе должна получиться вот такая таблица:
Как легко заметить — это уже практически готовая таблица из первой части статьи. В ней только не хватает для полного счастья столбца с пороговым значением 80% для построения линии отсечки в будущей диаграмме.
Такой столбец можно легко добавить с помощью вычисляемого поля. Выделите любое число в сводной и затем нажмите на вкладке Главная — Вставить — Вычисляемое поле (Home — Insert — Calculated Field).
В открывшемся окне введем имя поля и его формулу (в нашем случае — константу):
- После нажатия на ОК в таблицу добавится третий столбец со значением 80% во всех ячейках и она, наконец, примет требуемый вид. Дальше можно воспользоваться командой Сводная диаграмма (Pivot Chart) на вкладке Параметры (Options) или Анализ (Analysis) и настроить диаграмму совершенно аналогично первому варианту:
Подсветка ключевых товаров
Для подсветки самых влияющих факторов, т.е. столбцов находящихся левее точки пересечении оранжевой кривой накопленных процентов с горизонтальной линией отсечки в 80% можно использовать подсветку. Для этого придется добавить к таблице еще один столбец с формулой:
Эта формула выдает на выходе 1, если товар находится левее точки пересечения и 0 — если правее. Затем нужно сделать следующее:
- Добавляем новый столбец к диаграмме — проще всего это сделать простым копированием, т.е. выделить столбец Подсветка, скопировать его (Ctrl+C), выделить диаграмму и произвести вставку (Ctrl+V).
- Выделяем добавленный ряд и переключаем его по вторичной оси, как было описано выше.
- Тип диаграммы для ряда Подсветка меняем на столбцы (гистограмму).
- Убираем боковой зазор в свойствах ряда (правой кнопкой мыши по ряду Подсветка — Формат ряда — Боковой зазор), чтобы столбцы слились в единое целое.
- Убираем границы столбцов, а заливку делаем полупрозрачной.
На выходе получим вот такую симпатичную подсветку наилучших товаров:
P.S
- Начиная с версии Excel 2016 диаграмма Парето была добавлена в стандартный набор диаграмм Excel. Теперь, чтобы ее построить, достаточно просто выделить диапазон и на вкладке Вставка (Insert) выбрать соответствующий тип:
- Одно нажатие — и диаграмма готова:
Ссылки по теме
Источник: https://www.planetaexcel.ru/techniques/4/182/
Построить график распределения в Excel — Офис Ассист
Использование
Excel при изученииоснов теории вероятности и математической статистики
Тампишева С.Б.,
старший преподаватель Казахского финансово-экономического института, г.Семипалатинск, Республика Казахстан
Высшее образование и наукастановятся глобальным фактором общественного развития, выдвигаются в числонаиболее важныхнациональных и общемировых приоритетов, выступаютв качестве важнейших компонентовкультурного, социального и экономическиустойчивого развития людей, сообществ, наций[1].
В докладе ЮНЕСКО«Высшее образование в XXI веке: подходы и практические меры» (1998г.
) отмечалось, что «в сфере высшего образования наблюдается теснейшее сближение, если не общность проблем, тенденций, задач и целей, заставляющихзабыватьо национальных и региональныхразличиях и специфике«[2].
Сложившиеся в настоящее время социально-экономическиеи социально-культурные условиятребуют подготовки специалиста, конкурентоспособного на рынке труда.
Для успешного функционированияспециалиста в высокотехнологическом обществе необходимо постоянное пополнениебагажа знаний, умений и навыков.Непрерывное образование- необходимость и требование современнойнаучно-технической цивилизации.
Главная задача высшейшколы- поднять профессиональную и социальнуюкомпетентность выпускников вузов, научить их ориентироваться в потоке постоянно меняющейся информации, мыслитьсамостоятельно, критически и творчески. Сегодня этоневозможно без овладения студентами знаниями, умениями, навыками использования информационных технологий в сферебудущей профессиональной деятельности.
К настоящему времени исследователи пришлик единому мнению, что информационные технологии должны разрабатываться с учетом классических дидактических требований: принципа научности, доступности и посильной трудности, систематичности и последовательности, прочности усвоения, наглядности, связи теории с практикой, сознательности и активности (самостоятельности), принципа коллективного характера обучения и учета индивидуальных особенностейобучающихся, однако применительно к новым информационным технологиямониимеют свою специфику [3].
ПЭВМ наиболее полно удовлетворяет дидактическим требованиям и позволяет управлять процессом обучения, максимально адаптировать его киндивидуальнымособенностям обучаемого. Знания, полученные при компьютерном обучении, выступают в познавательной деятельностив качестве средстварешения профессиональных задачдеятельности специалиста.
Также исследователи выделяют возможные направлениявключениякомпьютера в процесс учебно-познавательной деятельности обучаемых: диагностика, обучающий режим, отработка умений и навыковпри решении задачпосле изучения темы, моделирование сложных процессов, графическая иллюстрация изучаемого материала, работа с базами данных [4].
Остановимся наприменениитабличного процессора MicrosoftExcel при изучении элементов теории вероятностей и математической статистики вкурсематематики для экономистов.
Курс математики в системе подготовки экономистовявляется основой дляизучения таких дисциплин какэконометрика, статистика, микроэкономика, макроэкономика, а математические методы исследуютсяво всех областях знаний.
В процессе обучения математике у студентов вырабатываютсянавыки исследовательской работы, формируются приемы умственной деятельности, развивается интеллект, т. е.формируетсяличностьбудущего специалиста с необходимымипрофессионально значимымикачествами.
Применение математического аппарата теории вероятностей и математической статистики позволяетполучать наиболее вероятныеколичественныезначенияэкономических показателей, устанавливать связьмежду различнымислучайными параметрами и приниматьобоснованные решения в экономике.
В настоящее время математико-статистические методы широко внедрилисьв жизнь, благодаряперсональным электронно-вычислительным машинам.
Статистическиепрограммные пакеты сделали эти методы более доступными и наглядными, так как трудоемкуюпо расчету различныхстатистик, параметров, характеристик, построению таблиц и графиков в основном стал выполнять компьютер, а исследователюостаетсяглавным образом творческая работа: постановка задачи, выбор методов ее решения и интерпретация результатов.
Существует множество различных пакетов программ по работе со статистическими данными, но наибольшее распространение в деловой сфере получил табличный процессор MicrosoftExcel.
Он включает в себя программную надстройку «Пакет анализа» и библиотеку из83 (в среде MicrosoftExcel2000) статистических функций, 50 математических функций,которые позволяют автоматизироватьрасчеты, а такжена их основеполучить графическую интерпретацию.
При изучении основных понятий и теорем теории вероятностей можно использовать, например,такие функции Excel как: экспонента, степень, факториал, перестановки, число комбинаций, вероятность.
Изучаяслучайные величины и их характеристики, можно использовать, например, такие статистические функции как дисперсия, доверительный интервал, медиана, мода , различные виды распределений случайных величин и др.
Кроме того,в дальнейшем, при изучении эконометрикии статистики,предоставляется широкийвыбор другихстатистических функций.
Рассмотрим использование Excelпри изученииразличных видовраспределений дискретных инепрерывных случайных величин.
При работе со случайными величинамина лекционных занятиях студентовзнакомят с понятиемслучайной величины, законами ее распределения, математическим ожиданием, дисперсией.
Формируются вероятностные модели биномиального распределения, распределения Пуассона, геометрического и гипергеометрического и других распределений, во время практических занятий эти понятия закрепляются и отрабатываются.
Задания, выполненные на компьютере, помогут вывести обучающихсяна более высокий уровень усвоения знаний и умений,и сопровождаться значительной экономией времени.
При рассмотрениизаконов распределения, например, нужно обратить внимание насферы ихиспользования. При построении графиков функцийсравнивать их кривые, анализировать, делать выводы.
- Рассмотрим задание набиномиальное распределение:
- Задание 1. Построить с помощью программы Excel, многоугольникбиномиального распределения для следующих параметров:
- a)n=10; p=0,5; q=0,5;
- b)n=10; p=0,1; q=0,9;
- c)n=20; p=0,3; q=0,7;
- d)n=20; p=0,7; q=0,3;
- Используетсястатистическая функция БИНОМРАСПР:
Рис.1Многоугольникбиномиального распределения( n=10, p=0,5)
Изменяя параметры распределения, проследить как изменяетсяконтур многоугольника распределения.
Задание 2. Работа уличного агента по приглашению потенциальных покупателей тайм-шер считаетсяудовлетворительной, если по его приглашению за день на презентацию придет более 10 покупателей.
Считая, что вероятность того, что лицо, к которому агент обратится с предложением, с вероятностью 0,1 придет на презентацию, вычислить вероятность того, что работаагента будет признана удовлетворительной, если агент обратится с предложением к 40 прохожим.
Для задачи необходимо составление компьютерной модели, выполнение громоздкихрасчетовс помощью функции БИНОМРАСПР.
Для закрепленияраспределения Пуассона можно предложить задание 3.
Задание 3. Устройство состоит из 1000 элементов, работающих независимо один от другого. Вероятность отказа любого элемента в течение времени Т равно 0,002. Найти вероятность того, что за время Т откажут ровно k элементов. Построить график распределения вероятности k=0;1;2;3;4;5;6;7.
Используется функция ПУАССОН:
- Рис.2Многоугольник распределения Пуассона (l=2)
- После построения графика целесообразно поставить вопрос: от какого параметра зависит распределение Пуассона?
- Задание 4 и 5 на гипергеометрическое распределение, выполнение расчетов и построение графика.
Задание 4. В лотерее «Спортлото 6 из 45 «денежные призы получают участники, угадавшие 3, 4, 5 и 6 видов спорта из отобранныхслучайно 6 видов из 45. Найти закон распределения случайной величины Х- числа угаданных видов спорта среди случайно отобранных шести. Какова вероятность получения денежного приза? Найти математическое ожидание и дисперсию случайной величины Х.
- В задании 4строитсямодель, через функцию ГИПЕРГЕОМЕТвыполняются громоздкие вычисления длярядаэтого распределения.
- Задание 5. Построить графики гипергеометрического распределения для следующих значений параметров:
- a)N=200;M=25; n=7;
- b)N=200;M=50; n=10
- Нормальный закон распределенияприменяется взаданиях 6 и 7.
- Задание 6.Построить кривую Гаусса для:
а) а=2; s=2; б)а=2; s=1; в)а=2; s=0,5. Сделать выводы по графикам. Найти площадь под каждой кривой Гаусса.
- Эта задача подразумевает несколько этапов решения, процесс построениякривой , анализ полученных результатов, их геометрическую интерпретацию.
- Задание 7. Полагая, что рост мужчин определенной возрастнойгруппы есть нормально распределеннаяслучайная величина Х с параметрамиа=173, , найти:
- а) выражение плотности вероятности и функции распределения случайной величины Х;
- b) доли костюмов 4-го роста (176-) и 3-го роста (170-176см), которыенужно предусмотреть в общем объеме производства для данной возрастной группы;
- с) квантиль и 10 % -ную точку случайной величины Х.
- В задании 7 необходимо построитьмодель нормального распределения, вероятность попадания в интервал,применить правиланахождения квантиля .
Задание 8. Непрерывная случайная величина Храспределенапо показательному закону, заданному при плотностьюраспределения ; при x
Источник: http://officeassist.ru/excel/postroit-grafik-raspredeleniya-v-excel/
Отображение нормального распределения в виде диаграммы при помощи статистической формулы в Excel
Звучит заумно, но на деле все просто. Заполните ячейки от А1 до А11 исходными данными — в примере числами от 0 до 100 с шагом в десять. Выделите ячейку В1, откройте вкладку «Формулы» и щелкните по кнопке «Вставить функцию».
Выбор статистической формулы. Для отображения нормального распределения в Excel предусмотрена функция «НОРМ.РАСП».
В качестве категории выберите значение «Статистические», в качестве функции — «НОРМ.РАСП». Подтвердите выбор, нажав кнопку ОК. Откроется новое окно. В строку «Х» введите значение «A1», в строку «Интегральная» — значение «0». Среднее составит «50», стандартное отклонение же можно свободно выбирать.
Когда вы закроете окно, Excel отобразит первое значение в ячейке B1. Теперь потяните за правый нижний угол ячейки вниз, затем выделите все значения — то есть ячейки от A1 до B11.
На вкладке «Вставка» в группе «Диаграммы» в разделе «Точечная» вы найдете несколько диаграмм, на которых можно отобразить нормальное распределение.
компания-производитель
Источник: https://ichip.ru/sovety/otobrazhenie-normalnogo-raspredeleniya-v-vide-diagrammy-pri-pomoshhi-statisticheskojj-formuly-v-excel-71633
Нормальное распределение. Построение графика в Excel. Концепция шести сигм
Наверное, не все знают, что в Excel есть встроенная функция для построения нормального распределения. Графики нормального распределения часто используются для демонстрации идей статистической обработки данных.
- Функция НОРМРАСП имеет следующий синтаксис:
- НОРМРАСП (Х; среднее; стандартное_откл; интегральная)
- Х — аргумент функции; фактически НОРМРАСП можно трактовать как y=f(x); при этом функция возвращает вероятность реализации события Х
- Среднее (µ) — среднее арифметическое распределения; чем дальше Х от среднего, тем ниже вероятность реализации такого события
- Стандартное_откл (σ) — стандартное отклонение распределения; мера кучности; чем меньше σ, тем выше вероятность у тех Х, которые расположены ближе к среднему
- Интегральная — логическое значение, определяющее форму функции. Если «интегральная» имеет значение ИСТИНА, функция НОРМРАСП возвращает интегральную функцию распределения, тот есть суммарную вероятность всех событий для аргументов от -∞ до Х; если «интегральная» имеет значение ЛОЖЬ, возвращается вероятность реализации события Х, точнее говоря, вероятность событий находящихся в некотором диапазоне вокруг Х
- Например, для µ=0 имеем:
- Скачать заметку в формате Word, пример в формате Excel
Здесь по оси абсцисс единица измерения – σ, или (что то же самое), можно сказать, что график построен для σ = 1. То есть, «-2» на графике означает -2σ. По оси ординат шкала убрана умышленно, так как она лишена смысла.
Точнее говоря, высота кривой зависит от плотности точек на оси абсцисс, по которым мы строим график. Например, если на интервал от 0 до 1σ приходится 10 точек, то высота в максимуме составит 4%, а если 20 точек – 2%.
Здесь проценты означают вероятность попадания случайной величины в узкий диапазон окрестности точки на оси абсцисс. Зато имеет смысл площадь под кривой на определенном интервале. И эта площадь не зависит от плотности точек.
Так, например, площадь под кривой на интервале от 0 до 1σ составляет 34,13%. Это значение можно интерпретировать следующим образом: с вероятностью 68,26% случайная величина Х попадет в диапазон µ ± σ.
Теперь, наверное, вам будет лучше понятен смысл выражения «качество шести сигм». Оно означает, что производство налажено таким образом, что случайная величина Х (например, диаметр вала) находясь в диапазон µ ± 6σ, всё еще удовлетворяет техническим условиям (допускам).
Это достигается за счет значительного уменьшения сигмы, то есть случайная величина Х очень близка к нормативному значению µ.
На графике ниже представлено три ситуации, когда границы допуска остаются неизменными, а благодаря повышению качества (уменьшению вариабельности, сужению сигма) доля брака сокращается:
На первом рисунке только 1,5σ попадают в границы допуска, то есть только 86,6% деталей являются годными. На втором рисунке уже 3σ попадают в границы допуска, то есть 99,75% являются годными. Но всё еще 25 деталей из каждых 10 000 произведенных являются браком. На третьем рисунке целых 6σ попадают в границы допуска, то есть в брак попадут только две детали на миллиард изготовленных!
Вообще-то говоря, измерение качества в терминах сигм использует не совсем нормальное распределение. ???? Вот что пишет на эту тему Википедия:
Опыт показывает, что показатели процессов имеют тенденцию изменяться с течением времени. В результате со временем в промежуток между границами поля допуска будет входить меньше, чем было установлено первоначально.
Опытным путём было установлено, что изменение параметров во времени можно учесть с помощью смещения в 1,5 сигма.
Другими словами, с течением времени длина промежутка между границами поля допуска под кривой нормального распределения уменьшается до 4,5 сигма вследствие того, что среднее процесса с течением времени смещается и/или среднеквадратическое отклонение увеличивается.
Широко распространённое представление о «процессе шесть сигма» заключается в том, что такой процесс позволяет получить уровень качества 3,4 дефектных единиц на миллион готовых изделий при условии, что длина под кривой слева или справа от среднего будет соответствовать 4,5 сигма (без учёта левого или правого конца кривой за границей поля допуска).
Таким образом, уровень качества 3,4 дефектных единиц на миллион готовых изделий соответствует длине промежутка 4,5 сигма, получаемых разницей между 6 сигма и сдвигом в 1,5 сигма, которое было введено, чтобы учесть изменение показателей с течением времени.
Такая поправка создана для того, чтобы предупредить неправильною оценку уровня дефектности, встречающееся в реальных условиях.
С моей точки зрения, не вполне внятное объяснение. Тем не менее, во всем мире принята следующая таблица соответствия числа дефектов и уровня качества в сигмах:
Число сигм | Число дефектов на миллион измерений | Процент дефектов (несоответствий) | Уровень качества |
6σ | 3,4 | 0,00034% | идеал |
5σ | 233 | 0,023% | мировой уровень |
4σ | 6210 | 0,62% | приемлемый уровень |
3σ | 66 807 | 6,68% | недостаточный уровень |
2σ | 308 537 | 30,9% | неприемлемый уровень |
1σ | 691 462 | 69,1% |
Для сравнения приведу таблицу для нормального распределения:
Сигма окрестность среднего значения | Число случаев на миллион за пределами сигма окрестности | Процент случаев за пределами сигма окрестности |
6σ | 0,002 | 0,0000002% |
5σ | 0,6 | 0,00006% |
4σ | 63 | 0,01% |
3σ | 2 700 | 0,27% |
2σ | 45 500 | 4,6% |
1σ | 317 311 | 31,7% |
Источник: http://baguzin.ru/wp/normalnoe-raspredelenie-postroeni/
Нормальное распределение (Гаусса) в Excel
В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.
Нормальное распределение в статистике
История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.
Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.
Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой.
Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением.
Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.
Кривая нормального распределения Гаусса имеет следующий вид.
График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.
На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.
- Формула нормального распределения (плотности) следующая.
- Формула состоит из двух математических констант:
- π – число пи 3,142;
- е – основание натурального логарифма 2,718;
- двух изменяемых параметров, которые задают форму конкретной кривой:
- m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);
- σ2 – дисперсия;
- ну и сама переменная x, для которой высчитывается плотность вероятности.
Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.
Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.
А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.
Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.
- Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:
- Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как
- P(a ≤ X < b) = Ф(b) – Ф(a)
Стандартное нормальное распределение
Нормальное распределение зависит от параметров средней и дисперсии, из-за чего плохо видны его свойства. Хорошо бы иметь некоторый эталон распределения, не зависящий от масштаба данных. И он существует.
Называется стандартным нормальным распределением.
На самом деле это обычное нормальное нормальное распределение, только с параметрами математического ожидания 0, а дисперсией – 1, кратко записывается N(0, 1).
- Любое нормальное распределение легко превращается в стандартное путем нормирования:
- где z – новая переменная, которая используется вместо x;m – математическое ожидание;σ – стандартное отклонение.
- Для выборочных данных берутся оценки:
Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.
В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.
- Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:
- Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:
- График плотности:
Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e0=1 и остается рассчитать только соотношение 1 на корень из 2 пи.
Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже.
Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения.
Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные.
Последнее свойство широко известно под названием правило трех сигм для нормального распределения.
Функция стандартного нормального распределения позволяет рассчитывать вероятности.
Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.
Таблица нормального распределения
- Таблицы нормального распределения встречаются двух типов:
- — таблица плотности;
- — таблица функции (интеграла от плотности).
Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму.
Ниже показан кусок таблицы.
В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец 0, т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).
Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.
Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.
На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.
В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.
Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:
Это факт показан на картинке:
Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.
- Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:
- Для наглядности можно взглянуть на рисунок.
- На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.
- Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:
- Рисунок ниже.
- Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.
Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.
Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:
Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.
Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.
Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.
То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от 0 до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.
Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к.
окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов.
Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).
Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).
Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.
Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.
Так выглядит правило 3 сигм для нормального распределения на диаграмме.
С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.
Нормальное распределение в Excel
В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.
Функция НОРМ.СТ.РАСП
Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ(z) или вероятности Φ(z) по нормированным данным (z).
=НОРМ.СТ.РАСП(z;интегральная)
z – значение стандартизованной переменной
интегральная – если 0, то рассчитывается плотность ϕ(z), если 1 – значение функции Ф(z), т.е. вероятность P(Z
Источник: https://statanaliz.info/statistica/teoriya-veroyatnostej/normalnoe-raspredelenie-v-excel/