» » Статистика и обработка данных

Статистика и обработка данных

Слово «статистика» часто ассоциируется со словом «математика», и это пугает студентов, связывающих это понятие со сложными формулами, требующими высокого уровня абстрагирования.

Однако, как говорит Мак-Коннелл, статистика - это, прежде всего, способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики. В нашей повседневной жизни мы сами, о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы спланировать бюджет, предусмотреть вероятность хорошей и плохой погоды или вообще оценить, как повлияет то или иное событие на наше личное или совместное будущее, - нам постоянно приходится отбирать, классифицировать и упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.

Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении с целью выяснить черты различия между ними, в их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Без статистики выводы в большинстве случаев были бы чисто интуитивными и не могли бы составлять основу для интерпретации данных, полученных в других исследованиях.

Рассмотрим в общих чертах три главных раздела статистики:

1. Описательная статистика, как следует из названия, позволяет описывать, подытоживать и воспроизводить в виде таблиц или графиков данные того или иного распределения, вычислять среднее для данного распределения и его размах и дисперсию.

2. Задача индуктивной статистики - проверка того, можно ли распространить результаты, полученные на данной выборке, на всю популяцию, из которой взята эта выборка. Иными словами, правила этого раздела статистики позволяют выяснить, до какой степени можно путем индукции обобщить на большее число объектов ту или иную закономерность, обнаруженную при изучении их ограниченной группы в ходе какого-либо наблюдения или эксперимента. Таким образом, при помощи индуктивной статистики делают какие-то выводы и обобщения, исходя из данных, полученных при изучении выборки.

3. Наконец, измерение корреляции позволяет узнать, насколько связаны между собой две переменные, для того, чтобы можно было предсказывать возможные значения одной из них, если мы знаем другую.

Существуют две разновидности статистических методов или тестов, позволяющих делать обобщение или вычислять степень корреляции. Первая разновидность - это наиболее широко применяемые параметрические методы, в которых используются такие параметры, как среднее значение или дисперсия данных. Вторая разновидность - это непараметрические методы, оказывающие неоценимую услугу в том случае, когда исследователь имеет дело с очень малыми выборками или с качественными данными; эти методы очень просты с точки зрения как расчетов, так и применения.

Некоторые основные понятия:

Популяция в статистике не обязательно означает какую-либо группу людей или естественное сообщество; этот термин относится ко всем существам или предметам, образующим общую изучаемую совокупность, будь то атомы или студенты, посещающие то или иное кафе.

Выборка - это небольшое количество элементов, отобранных с помощью научных методов так, чтобы она была репрезентативной, т.е. отражала популяцию в целом.

Данные в статистике - это основные элементы, подлежащие анализу. Данными могут быть какие-то количественные результаты, свойства, присущие определенным членам популяции, место в той или иной последовательности - в общем, любая информация, которая может быть классифицирована или разбита на категории с целью обработки.

Не следует смешивать данные с теми значениями, которые эти данные могут принимать. Для того чтобы всегда различать их, рекомендуем запомнить следующую фразу: «Данные часто принимают одни и те же значения» (так, если мы возьмем, например, шесть данных - 8, 13, 10, 8, 10 и 5, то они принимают лишь четыре разных значения - 5, 8, 10 и 13).

Построение распределения - это разделение первичных данных, полученных на выборке, на классы или категории с целью получить обобщенную упорядоченную картину, позволяющую их анализировать.

Существуют три типа данных:

1. Количественные данные, получаемые при измерениях (например, данные о весе, размерах, температуре, времени, результатах тестирования и т. п.). Их можно распределить по шкале с равными интервалами.

2. Порядковые данные, соответствующие местам этих элементов в последовательности, полученной при их расположении в возрастающем порядке (1-й,..., 7-й,..., 100-й,...; А, Б, В...).

3. Качественные данные, представляющие собой какие-то свойства элементов выборки или популяции. Их нельзя измерить, и единственной их количественной оценкой служит частота встречаемости (число курильщиков и не курильщиков, утомленных и отдохнувших, сильных и слабых и т.п.).

Из всех этих типов данных только количественные данные можно анализировать с помощью методов, в основе которых лежат параметры (такие, например, как средняя арифметическая). Но даже к количественным данным такие методы можно применить лишь в том случае, если число этих данных достаточно, чтобы проявилось нормальное распределение. Итак, для использования параметрических методов в принципе необходимы три условия: данные должны быть количественными, их число должно быть достаточным, а их распределение - нормальным. Во всех остальных случаях всегда рекомендуется использовать непараметрические методы.шаблоны для dle 11.2