Стандартные статистические методы обработки данных включены в состав электронных таблиц таких как
Обработка статистических данных с помощью электронных таблиц
Урок 1. Элементы математической статистики
1. Задачи математической статистики
“Статистика знает все” – такими словами начинается вторая часть романа И.Ильфа и Е.Петрова “Двенадцать стульев”. “Известно, сколько какой пищи съедает в год средний гражданин республики… Известно, сколько в стране охотников, балерин… станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.
Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!” Зачем нужны эти таблицы, как их составлять и обрабатывать, какие выводы на их основании можно делать – на эти вопросы отвечает статистика (от итальянского stato – государство, латинского status – состояние).
Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Можно выделить две основные задачи математической статистики:
Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
2. Генеральная и выборочная совокупности
Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.
Генеральной совокупностью (ГС) называют совокупность объектов, из которых произведена выборка.
Объем совокупности – число объектов этой совокупности.
Например: из 1000 деталей отбирается 100, тогда Vг.с. = 1000, Vв.с. = 100.
3. Повторная и бесповторная выборки. Репрезентативная выборка
При составлении выборки можно поступать двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В первом случае выборку называют повторной, во втором – бесповторной. Выборка должна правильно представлять пропорции генеральной совокупности – быть репрезентативной (представительной).
Отбор, не требующий расчленения ГС на части:
Отбор, при котором ГС расчленяется на части:
простой случайный повторный отбор.
механический отбор;
серийный отбор.
5. Статистическое распределение выборки
1. Пусть в результате проведения некоторого эксперимента была получена выборка х1, х2, х3. хn.
Если все xi различны, то, расположив их в порядке возрастания, получим вариационный ряд.
Пример. Дана выборка: 13, 1, 15, 12, 11, 14, 2, 5, 6, 17, 25, 3, 4, 8, 10. Построить вариационный ряд.
2. Пусть из ГС извлечена выборка, причем x1 наблюдалось n1 раз,
x2 наблюдалось n2 раз,
……………………….
xk наблюдалось nk раз.
xi называются вариантами, а последовательность вариант, записанная в возрастающем порядке – вариационным рядом;
ni называются частотами, причем
ni = n – объем выборки; (1)
wi = – относительные частоты, причем (2)
wi = 1. (3)
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.
3. Как из выборки х1, х2, х3. хn получить ее статистическое распределение (т.е. вычислить частоты)?
Пример 1. Дана выборка 1, 1, 1, 4, 3, 1, 5, 2, 2, 4, 4, 5.
Записать статистическое распределение выборки.
1. Ввести исходные данные в таблицу.
2. Определить минимальное и максимальное значения признака с помощью функций МИН и МАКС.
3. Составить массив интервалов, в который группируется массив данных, для которых вычисляются частоты (1, 2, 3, 4).
4. Определить частоты, пользуясь статистической функцией ЧАСТОТА (для того, чтобы массив частот был записан в таблицу, нужно выделить определенное количество ячеек, а после вызова функции ЧАСТОТА нажать клавишу F2, а затем Ctrl + Shift + Enter).
5. Таким образом, получим статистическое распределение выборки.
Пример 2. Пусть задано статистическое распределение
Стандартные статистические методы обработки данных включены в состав электронных таблиц таких как
Н.Н. Буреева. Многомерный статистический анализ с использованием ППП STATISTICA
Добавлено Psychology OnLine.Net
01.12.2010 (Правка 01.12.2010)
Многомерные статистические методы среди множества возможных вероятностно-статистических моделей позволяют обоснованно выбрать ту, которая наилучшим образомсоответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании ограниченного статистического материала.
К области приложения математической статистики могут быть отнесены задачи, связанные с исследованием поведения индивидуума, семьи или другой социально-экономической или производственной единицы, как представителя большой совокупностиобъектов.
Многомерный экономико-статистический анализ опирается на широкий спектр методов. В учебном пособии рассматриваются некоторые из наиболее используемых методов, а именно: факторный, кластерный и дискриминантный анализы.
Методы многомерной классификации, которые предназначены разделять рассматриваемые совокупности объектов, субъектов или явлений на группы в определенном смысле однородные. Необходимо учитывать, что каждый из рассматриваемых объектов характеризуется большим количеством разных и стохастически связанных признаков. Для решения столь сложных задач классификации применяют кластерный и дискриминантный анализ. Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относятся факторный анализ. Этот метод позволяет учитывать эффект существенной многомерности данных, дает возможность лаконичного и более простого объяснения многомерных структур. Вскрывает объективно существующие, непосредственно не наблюдаемые закономерности при помощи полученных факторов или главных компонент.
Это дает возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – используется значительно меньше, чем исходных признаков.
Все перечисленные методы наиболее эффективны при активном применении статистических пакетов прикладных программ. При помощи этих пакетов предоставляется возможным даже восстанавливать пропущенные данные и др. Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Excel, Lotus 1-2-3, QuattroPro, и в математические пакеты общего назначения, например Mathсad. Но гораздо большими возможностями обладают специализированные статистические пакеты, позволяющие применять самые современные методы математической статистики для обработки данных. По официальным данным Международного статистического института, число статистических программных продуктов приближается к тысяче. Среди них есть профессиональные статистические пакеты, предназначенные для пользователей, хорошо знакомых с методами математической статистики, и есть пакеты, с которыми могут работать специалисты, не имеющие глубокой математической подготовки; есть пакеты отечественные и созданные зарубежными программистами; различаются программные продукты и по цене.
Существуют также нестатистические пакеты, решающие задачи классификации(PolyAnalyst, ДА-система, АРГОНАВТ, ЛОРЕГ, пакет ОТЭКС и разнообразные нейросетевые пакеты).
Для реализации рассмотренных методов многомерной классификации выбрана достаточно популярная в нашей стране система STATISTICA.
Стандартные статистические методы включены в состав популярных электронных таблиц, таких как Excel, Lotus 1-2-3, Quattro Pro, а также в математические пакеты общего назначения, например Mathcad, Maple и др. Однако гораздо большими возможностями обладает специализированное программное обеспечение – статистические программные продукты
Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2.
СПП можно разделить на:
1. Универсальные пакеты – предлагают широкий диапазон статистических методов. В них отсутствует ориентация на конкретную предметную область. Из зарубежных универсальных пакетов наиболее распространены BAS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.
2. Специализированные пакеты, как правило, реализуют несколько статистических методов или методы, применяемые в конкретной предметной области. Чаще всего это системы, ориентированные на анализ временных рядов, корреляционно-регресионный, факторный или кластерный анализ. Из российских пакетов известны STADIA, Олимп, Класс-Мастер, КВАЗАР, Статистик-Консультант; американские пакеты – ODA, WinSTAT, Statit и т.д.
Современные СПП реализуют ряд системных функций: ассистирование пользователю при выборе способа обработки, автоматическую организацию процесса обработки данных, обеспечение диалогового режима работы пользователя с пакетом, ведение пользовательских баз данных, автоматическое составление отчета о проделанной пользователем работе, совместимость с другими программами и некоторые другие.
Методориентированные СПП, как правило, имеют следующую структуру:
1. Блок описательной статистики и разведочного анализа исходных данных: анализ резко выделяющихся значение исследуемого признака, восстановление пропущенных значений, частотная обработка исходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних дисперсий и т.д.), проверка статистических гипотез об однородности исследуемых совокупностей, оценка критериев согласия, визуализация распределения статистических данных и др.;
2. Блок статистического исследования динамики и зависимостей: дисперсионный и ковариационный анализ, корреляционно-регрессионый анализ, анализ временных рядов и др.;
3. Блок классификации и снижения размерности: дискриминантный анализ, статистических анализ смесей распределений, кластерный анализ и др.;
4. Блок методов статистического анализа нечисловых данных и экспертых оценок: анализ таблиц сопряженности, логлинейные модели, ранговые методы и др.;
5. Блок планирования эксперимента и выборочных исследований;
6. Блок вспомогательных программ.
Следует отметить, что продвижение западных продуктов в российской аудитории наталкивается на ряд ограничений в связи с неадекватностью культурно-исторической ситуации. Эти пакеты предполагают наличие широкого первоначального статистического образования, доступной литературы и консультационных служб. Поэтому они содержат мало экранных подсказок и требуют внимательного изучения документации на английском языке.
Указанных недостатков в значительной степени лишены известные отечественные статистические пакеты: Эвриста, Статистик-Консультант, STADIA, которые устойчиво представлены на рынке в течение последних лет.
Используемая в данной работе СПП STADIAявляется универсальной системой, покрывающей в той или иной степени большинство основных разделов прикладной статистики, деловой и научной графики, и по своим интегральным возможностям сравнима с популярными зарубежными пакетами. Набор методов математической статистики, представленный в пакете STADIA составлен исходя из следующих соображений:
Statistica 5.1: программа для начинающих и профессионалов
На Западе статистику используют широко и давно, так что эта наука интенсивно развивалась. Было создано множество программ, в том числе и для персональных компьютеров, позволяющих применять самые современные методы математической статистики для обработки данных.
Благодаря профессионализму исполнения, простоте освоения и удобству использования пакет приобрел большую популярность (зарегистрировано свыше 300 тыс. пользователей). Statistica 5.1 позволяет проводить исчерпывающий, всесторонний анализ данных для научного, коммерческого и инженерного применения. Программа обладает превосходными средствами представления результатов анализа в виде таблиц и графиков, позволяет автоматически создавать отчеты по проделанной работе. Система подсказок составлена настолько продуманно и так удобна в обращении, что с ее помощью можно обучаться не только работе с самим пакетом, но и современным методам статистического анализа.
Допустим, вы предприниматель и вам нужно собрать информацию о финансовых результатах деятельности фирмы. Эти данные могут быть использованы не только для представления отчета в налоговые органы. Пользуясь пакетом Statistica, можно проанализировать деятельность как фирмы в целом, так и отдельных ее подразделений, принять решения, направленные на улучшение результатов.
Однако хорошая иллюстрация нагляднее абстрактных рассуждений, поэтому мы продемонстрируем основные возможности пакета на двух конкретных примерах.
Пример 1
Очевидно, что у каждого сотрудника объемы продаж варьируются от месяца к месяцу, т. е. cуществует некоторый разброс результатов. Количественная характеристика этого разброса (дисперсия) вычисляется по формуле
(1) |
(2) |
В нашем случае n=10, в нижней строке приведены средние значения для каждого сотрудника, вычисленные по этой формуле. Из таблицы видно, что существует разброс и между средними показателями отдельных сотрудников, который также можно оценить по формулам (1), (2); здесь, однако, случайными величинами будут средние показатели для отдельных сотрудников, а n=4. Интуитивно ясно, что чем больше дисперсия (разброс) средних показателей продаж сотрудников по отношению к дисперсии продаж каждого отдельного сотрудника, тем более вероятен такой вывод: либо сотрудники работают в разных условиях, либо представленные данные неверны.
Давайте посмотрим, как решает подобные задачи программа Statistica.
Кроме того, данные можно скопировать из других Windows-приложений или импортировать из файлов. Кнопки на Панели инструментов позволяют вводить наименования переменных.
После нажатия кнопки ОК появляется окно ANOVA-results с описанием условий задачи. В верхней строке указан метод анализа, а в следующих перечисляются зависимая («ВЫРУЧКА») и независимая («ГРУППА») переменные.
Осталось, нажав на кнопку All effects, получить информацию о результатах анализа. Программа выводит окно, в котором указаны параметры для вычисления F-фактора: df Effect=3 (N-1), MS Effect=1333 (межгрупповая дисперсия), df Error=36 (n-N), MS Error=66,66 (внутригрупповая дисперсия), значение самого F-фактора (F=20) и вероятность получения данного значения F-фактора при случайном разбросе средних (p-level). В нашем случае эта вероятность равна нулю с точностью до шести знаков. Вывод: полученная разница между объемами продаж с очень большой вероятностью (близкой к 100%) неслучайна, так что необходимо устранять причину неудовлетворительной работы двух сотрудников.
Прежде чем распечатывать результаты анализа, было бы удобно сформировать отчет.
Для этого в меню File/Page/Output setup в разделе Output активизируем Off (чтобы отключить принтер) включаем опцию Window, позволяющую сразу просмотреть полученный результат.
Пример 2
Рассмотрим еще один пример из реальной практики производственной фирмы, выпускающей продукцию, пользующуюся большим спросом.
В появившейся таблице указан коэффициент корреляции, для переменных «ПРИБЫЛЬ» и «ИНФЛЯЦИЯ» равный 0,78.
На этом же графике указан коэффициент корреляции между переменными (0,77548), штриховыми линиями обозначен доверительный интервал (область, в которой с вероятностью 95% лежат значения переменных).
В общем случае математическим коэффициентом корреляции между случайными величинами X и Y является величина
(3) |
(4) |
Используя полученные данные, можно сделать и другие выводы. Например, о периодическом падении и возрастании спроса, что связано с сезонным фактором. Зависимость прибыли от времени можно аппроксимировать различными кривыми.
ПРИБЫЛЬ=23.523 3 exp(-0.06 3 НОМЕР),
Рассмотренные примеры достаточно просты, но они показывают, что на освоение методов анализа и обучение работе с программой Statistica не придется тратить много времени, а важность полученных результатов трудно переоценить.
Программа способна решать и гораздо более сложные задачи, она также помогает незнакомому с предметом пользователю повышать свой уровень.
Но и искушенный пользователь найдет программу Statistica не менее полезной.
Включенный в новую версию Statistica 5.1 эффективный, легко усваиваемый язык программирования Statistica-BASIC позволяет пользователю создавать собственные программы обработки и преобразования данных. В состав пакета входят несколько программ, написанных на языке Statistica-BASIC, которые можно использовать в качестве примеров или заготовок.
Хотелось бы поблагодарить директора корпорации SoftLine Игоря Боровикова за любезно предоставленную возможность ознакомиться с программой Statistica 5.1.
Обработка статистических данных средствами электронных таблиц
Автор работы: Пользователь скрыл имя, 16 Июня 2013 в 22:01, реферат
Краткое описание
Цель настоящего исследования заключается в формировании устойчивых знаний о возможностях MS Excel для решения статистических задач.
Для достижения поставленной цели потребовалось решить следующие задачи:
1. Раскрыть сущность возможностей MS Excel.
2. Определить способы применения этих возможностей при решении задач статистики.
В качестве гипотезы выдвигается следующее:
Использование возможностей программы MS Excel облегчает и ускоряет решения задач статистики.
Вложенные файлы: 1 файл
Применение MS Excel для решения статистических задач.doc
В современном обществе к статистическим методам проявляется повышенный интерес как к одному из важнейших аналитических инструментариев в сфере поддержки процессов принятия решений. Статистикой пользуются все- от политиков, желающих предсказать исход выборов, до предпринимателей, стремящихся оптимизировать прибыль при тех или иных вложениях капитала. Большим шагом вперёд к развитию статистической науки послужило применение экономико-математических методов и использование компьютерной техники в анализе социально-экономических явлений.
Программа обработки электронных таблиц MS Excel- мощная и достаточно простая в использовании программа, предназначенная для решения широкого круга планово-экономических, учетно-статистических, научно-технических и других задач, в которых числовая, текстовая или графическая информация с некоторой регулярной, повторяющейся структурой представлена в табличном виде.
Программа MS Excel предоставляет богатые возможности создания и изменения таблиц, которые могут содержать числа, тексты, даты, денежные единицы, графику, а также математические и иные формулы для выполнения вычислений.
Предусмотрены средства представления числовых данных в виде диаграммы, создания, сортировки и фильтрации списков, статического анализа данных и решения оптимизационных задач.
В данной работе я постараюсь показать, какие возможности для обработки статистических данных имеет программа MS Excel.
Объектом исследования данной работы являются возможности табличного процессора.
Предметом исследования является применение программы MS Excel для решения статистических задач.
Актуальность работы обусловлена недостаточной реализацией возможностей MS Excel для решения статистических задач.
Цель настоящего исследования заключается в формировании устойчивых знаний о возможностях MS Excel для решения статистических задач.
Для достижения поставленной цели потребовалось решить следующие задачи:
1. Раскрыть сущность возможностей MS Excel.
2. Определить способы применения этих возможностей при решении задач статистики.
В качестве гипотезы выдвигается следующее:
Использование возможностей программы MS Excel облегчает и ускоряет решения задач статистики.
Глава 1. Применение Microsoft Excel для решения
статистических задач.
Работа с данными
В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Графические изображения используются, прежде всего, для наглядного представления статистических данных, благодаря ним существенно облегчается их восприятие и понимание. Существенна их роль и тогда, когда речь идет о контроле полноты и достоверности исходного статистического материала, используемого для обработки и анализа.
Статистические данные приводятся в виде длинных и сложных статистических таблиц, поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.
В процессе анализа данных, как правило, присутствуют следующие основные этапы:
2. Преобразование данных
Данные в электронной таблице можно просмотреть и скорректировать методами ручного редактирования или же полуавтоматического преобразования к виду, адекватному выбранному методу анализа. Здесь может быть использован широкий набор алгебраических, матричных, структурных преобразований, а также комбинирование этих операций в требуемой последовательности.
3. Визуализация данных
На данные обязательно следует просто посмотреть, чтобы составить общее (в том числе и интуитивное) представление о характере их изменения, специфических особенностях и закономерностях, что очень важно при выборе стратегии и тактики дальнейшего анализа. Для этого можно использовать как исходное числовое представление, так и различные формы графического изображения.
4. Статистический анализ
Собственно выбор метода, анализ данных и интерпретация результатов.
5. Представление результатов
Для наглядности производимых выводов полученные результаты желательно представлять в виде адекватных, убедительных и эффектных графиков.
Для успешного применения процедур анализа необходимы начальные знания в области статистических и инженерных расчетов, для которых эти инструменты были разработаны
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и дисперсионного анализа.
При машинной обработке исходной информации на ЭВМ, оснащенных пакетами стандартных программ ведения анализов, вычисление параметров применяемых математических функций является быстро выполняемой счетной операцией.
Возможность использования формул и функций является одним из важнейших свойств программы обработки электронных таблиц. Это, в частности, позволяет проводить статистический анализ числовых значений в таблице.
Текст формулы, которая вводится в ячейку таблицы, должен начинаться со знака равенства (=), чтобы программа Excel могла отличить формулу от текста. После знака равенства в ячейку записывается математическое выражение, содержащее аргументы, арифметические операции и функции.
Формула может содержать ссылки на ячейки, которые расположены на другом рабочем листе или даже в таблице другого файла. Однажды введенная формула может быть в любое время модифицирована. Встроенный Менеджер формул помогает пользователю найти ошибку или неправильную ссылку в большой таблице.
Кроме этого, программа Excel позволяет работать со сложными формулами, содержащими несколько операций. Для наглядности можно включить текстовый режим, тогда программа Excel будет выводить в ячейку не результат вычисления формулы, а собственно формулу.
Программа Excel интерпретирует вводимые данные либо как текст (выравнивается по левому краю), либо как числовое значение (выравнивается по правому краю). Для ввода формулы необходимо ввести алгебраическое выражение, которому должен предшествовать знак равенства (=). [7]
Ввод формул можно существенно упростить, используя маленький трюк. После ввода знака равенства следует просто щелкнуть мышью по первой ячейке, затем ввести операцию деления и щелкнуть по второй ячейке.
Инструменты пакета анализа в Microsoft Excel
Дисперсионный анализ
Пакет анализа включает в себя три средства дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных. [6]