Автор работы: Пользователь скрыл имя, 02 Марта 2013 в 16:54, шпаргалка
Количественные методы в социологическом исследовании ответы на экзамен (КУрганский гос.Университет)
Социальная реальность — пространственно-временная структура, представляющая собой связи между социальными позициями в определённый момент времени. Социальное пространство — самое широкое понятие, использующееся для описания социальной реальности. Большинство социологов определяют его как результирующую социальных связей.
Результатом работы алгоритмов обычно является разбиение множест-
ва объектов на группы в пространстве признаков, заданных исследователем,
а также расчет некоторых обобщенных характеристик каждого из кластеров
(центр кластера, средние, меры вариации). Существуют алгоритмы, позво-
ляющие проводить классификацию не только в пространстве признаков,
измеренных с помощью метрических шкал, но и для шкал номинальных и
порядковых.
Процедуры кластерного анализа распределяются по следующим на-
правлениям.
1. Иерархические классификации, в результате которых получают
схему взаимосвязи объектов
или признаков в форме
2. Структурные классификации предполагают предварительное оп-
ределение центров сгущений объектов в пространстве. По мере присоеди-
нения к каждому центру конкретных наблюдений характеристик центров
кластеров и их количество уточняется.
Регрессионный анализ
1
Основная цель регрессионного анализа – возможность осуществления
прогнозирования. Сначала для простоты изложения рассмотрим случай, ко-
гда у нас имеется только два признака – X и Y – и нас интересует зависи-
мость между ними. Другими словами, сначала предположим, что наша
"группа признаков" состоит из одного признака – X (потом перейдем к слу-
чаю, когда вместо одного X фигурируют несколько признаков). Мы знаем, что о связи между признаками говорит соответствующий коэффициент
корреляции: чем ближе значение модуля этого коэффициента к 1, тем более
сильна эта связь, т.е. тем с большей уверенностью мы можем полагать, что
с ростом значений одного признака растут (если коэффициент корреляции
положителен) или убывают (если коэффициент корреляции отрицателен) значения другого (напомним, что коэффициент корреляции измеряет ли-
нейную связь между переменными; отметим, однако, что приводимые рас-
суждения справедливы и для других коэффициентов связи, например, для
корреляционного отношения, дающего возможность оценить криволиней-
ную связь). Но при этом мы совершенно не можем сказать о том, в какой
степени возрастет значение Y, если значение X увеличится, скажем, на 1. А
ситуации здесь могут быть весьма разными.
Итак, для того, чтобы делать прогноз о том, как изменится значение Y
при том или ином изменении значения X, нам желательно знать, как гово-
рят, форму связи между этими переменными, т.е. желательно найти функ-
цию вида Y = f (X). Подчеркнем, что отношение между X и Y несимметрич-
но: речь идет именно о зависимости второй переменной от первой, именно
о возможности прогноза значения Y от X, а не наоборот.
Поиск функции f предполагает разработку определенной модели свя-
зи между переменными, опирающуюся на априорные знания исследователя.
Найденная с помощью регрессионной техники зависимость – это тоже не-
которая модель реальности – модель, в соответствии с которой и находятся
значения Y на основе информации о значениях признака X.
Вспомним, что в социологии мы имеем дело не с функциональными, а
с корреляционными зависимостями, то есть одному значению X соответст-
вует несколько значений Y. Тогда для изучения зависимости для каждого
значения X рассчитывается среднее значение Y и изучается зависимость от
X именно таких средних. Таким образом, необходимо найти функцию
) (X f YX = .
Фиксируя какое-либо значение Х, равное, например, Хi (т.е. рассмат-
ривая совокупность объектов, обладающих этим значением), мы имеем де-
ло с некоторым условным распределением Y (которое образуют значения
зависимой переменной Y, вычисленные для объектов, обладающих значени-ем Хi признака Х). Ясно, что чем меньше разброс зависимого признака в ус-
ловных распределениях, тем больше можно верить прогнозу значений этого
признака, осуществляемому с помощью уравнения регрессии. Напротив,
большой разброс может полностью лишить нас возможности делать про-
гноз: утверждение о том, что для такого-то Хi переменная Y в среднем равна
соответствующему условному среднему, не будет иметь никакой практиче-
ской ценности из-за того, что бессмысленным станет сам расчет средней
величины. Данный метод анализа был создан для анализа количественных дан-
ных. Использовать регрессионную
технику для анализа
лы бессмысленно. Для того чтобы на основе информации, полученной по
номинальной шкале, можно было построить уравнение регрессии, эту ин-
формацию необходимо преобразовать. Соответствующее преобразование
носит название дихотомизации номинальных данных. Этот подход приме-
няется очень широко, поскольку его использование как бы “открывает
дверь” для применения подавляющего большинства “количественных” ме-
тодов с целью анализа номинальных данных. Для этого вместо каждого но-
минального признака, принимающего к значений, вводим k новых дихото-
мических (т.е. принимающих два значения, будем обозначать эти значения
0 и 1). Применение регрессионной техники к преобразованным номиналь-
ным данным называется номинальным регрессионным анализом.
20. Частотный анализ (одномерная табуляция).(ПОСМОТРЕТЬ ДРУГОЙ ВАРИАНТ)
После сбора информации анкетным способом самой ответственной стадией является обработка открытых вопросов, так называемое кодирование, с подготовкой данных для ввода в компьютер. Дело в том, что число вариантов свободных ответов может быть очень большим, и исследователь должен объединить их в содержательно однородные группы (с учетом целей и гипотез программы). Только после этого можно судить о распространенности тех или иных мнений в общем массиве опрошенных и в образованных нами группах. Если число анкет велико, например 1000, то методом случайной выборки из них выделяются 100, и все варианты ответов на интересующие вопросы записываются (вводятся в компьютер). Затем варианты объединяются по смыслу в обозримое число групп – не более 15–20. Далее составляется код, т.е. сгруппированные ответы получают обозначения по общему признаку. Такая работа называется частотным анализом. Потом, уже по составленному на основе частотного анализа коду, обрабатывается весь массив анкет.
Другие методики в их применении
для изучения субъектов массово-
21. Другие варианты использования частот.
22. Доверительный интервал для доли.
23. Средние величины, медиана, мода. Дисперсия. Распределение и их характеристики.
Для характеристики структуры статистической совокупности применяются показатели, которые называют структурными средними. К ним относятся мода и медиана.
Мода (Мо) – чаще всего встречающийся вариант.
Модой называется значение признака, которое соответствует максимальной точке теоретической кривой распределений.
Мода представляет наиболее
часто встречающееся или
В дискретном ряду мода – это варианта с наибольшей частотой. В интервальном вариационном ряду модой считают центральный вариант интервала, который имеет наибольшую частоту (частность). В пределах интервала надо найти то значение признака, которое является модой.
где x0 – нижняя граница модального интервала;
h – величина модального интервала;
f m – частота модального интервала;
f m -1 – частота интервала, предшествующего модальному;
f m+ 1 – частота интервала, следующего за модальным.
Мода зависит от величины групп, от точного положения границ групп.
Мода – число, которое в действительности встречается чаще всего (является величиной определенной), в практике имеет самое широкое применение (наиболее часто встречающийся тип покупателя).
Медиана (M e) – это величина, которая делит численность упорядоченного вариационного ряда на две равные части: одна часть имеет значения варьирующего признака меньшие, чем средний вариант, а другая – большие.
Медиана – это элемент, который больше или равен и одновременно меньше или равен половине остальных элементов ряда распределения.
Свойство медианы заключается в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины.
Применение медианы позволяет получить более точные результаты, чем при использовании других форм средних.
Порядок нахождения медианы в интервальном вариационном ряду следующий: располагаем индивидуальные значения признака по ранжиру; определяем для данного ранжированного ряда накопленные частоты; по данным о накопленных частотах находим медианный интервал:
Медиана делит численность
ряда пополам, следовательно, она там,
где накопленная частота
ДИСПЕРСИЯ - один из показателей вариации количественной переменной (см.), равен отношению суммы квадратов (см.) отклонений от среднего арифметического SSx к числу степеней свободы (см.) данной суммы квадратов (n - 1); в отличие от суммы квадратов, измеряет "чистую" вариацию переменной, не зависящую от объема выборки (см. также Стандартное отклонение). Вычисляется по формуле: s² = ∑ni=1(xi - x)² / (n - 1), где xi - значение переменной X с номером i; x - среднее арифметическое для переменной Х; n - объем выборки. Особая ценность Д., вычисленной по выборке, состоит в том, что она является несмещенной оценкой (см.) Д. генеральной совокупности - ср.: выборочное стандартное отклонение (см.) является состоятельной, но смещенной оценкой стандартного отклонения генеральной совокупности
24. Статистическая визуализация.
История статистических графиков насчитывает менее 300 лет. Рене Декарт (1596-1650 годы), французский энциклопедист и философ, впервые начал использовать прямоугольную систему координат с целью визуализации своих наблюдений. Однако первым начал готовить графические представления статистических данных в том виде, в каком они нам известны сегодня, шотландский инженер-экономист Уильям Плэйфэйр (1759-1823 годы).
1. Графические презентации помогают упростить сложные взаимосвязи, которые с трудом поддаются наблюдению:
2. Владельцы предприятий, политики и директивные органы нуждаются в кратком визуальном изложении сути информации, поскольку у них нет времени для ее подробного изучения.
3. Таблицы, особенно объемные таблицы, могут выглядеть скучными и трудными для понимания. Графические презентации облегчают жизнь пользователю.
4. Графики притягивают к себе глаз. Плэйфэйр обратил внимание на это, подчеркнув полезность его метода для понимания связей и количеств.
5. Графический метод привлекает и стимулирует ум, помогая ему не только в восприятии, но и в понимании структур и взаимосвязей.
Два типа таблиц
Интерес для вас должны представлять следующие два типа таблиц. В первую очередь, речь идет о малых таблицах, называемых презентационными (или демонстрационными) таблицами. Они могут использоваться для привлечения внимания читателя к основным цифрам в информационных бюллетенях, на вебстраницах или в аналитических публикациях. Ко второму типу относятся крупные таблицы, называемые справочными таблицами. Они все чаще заменяются интерактивными базами данных, которые позволяют пользователю генерировать в режиме онлайн свои собственные таблицы. Поскольку справочные таблицы являются в большей степени аналитическим инструментом, они в настоящем документе не обсуждаются.
ГРАФИКИ
Гистограммы
Гистограмма является простейшим типом графика с точки зрения подготовки и понимания. Она используется для сопоставления частотности или величин по разным категориям или группам.
Линейные графики
Линейный график служит эффективным средством визуализации трендов в данных во времени и, следовательно, наиболее подходящим типом графика для временны х рядов. Существует возможность корректировки параметров графика для более эффективной передачи выводов, однако необходимо
проявлять осторожность во избежание искажения данных.
Круговые диаграммы
Круговая диаграмма может использоваться для иллюстрации процентного распределения одной переменной, однако позволяет использовать лишь небольшое число категорий, как правило, не более шести.
Диаграммы рассеяния
Диаграмма рассеяния используется для демонстрации взаимосвязи между двумя переменными. Она является наиболее точным способом демонстрации корреляции, как об этом свидетельствует нижеприводимый пример. Однако некоторые аналитики предпочитают использовать гистограммы, поскольку диаграммы рассеяния могут создавать трудности с интерпретацией.
Использование карт
Карты могут быть весьма полезными как при подготовке переписей и обследований, так и при анализе и представлении результатов. Мы должны рассмотреть возможность использования карт, если вы хотите: