«Метод Ч. Осгуда в автоматизированном мониторинге медиа»

1.
Введение

Быстрое развитие интернет-технологий проникает во все сферы жизни современного общества. Гуманитарная сфера не становится исключением. Благодаря объединению технического и гуманитарного знаний появляются всё новые и новые методы автоматизированной обработки информации. Один из таких примеров - методика Чарльза Осгуда, разработанная в 50-х годах ХХ века как усовершеноствование и продолжение концепции Б. Берелсона “контент-анализ в коммуникационных исследованиях”. На основании этой концепции Ч. Осгуд разработал методику связанности символов, позволявшую определить коррелирующие между собой части содержания текста. (http://www.unn.ru/pages/e-library/methodmaterial/2010/89.pdf )

Им была реализована техника анализа зависимостей элементов содержания для расчёта совместной встречаемости различных элементов в тексте. Её реализация состояла в том, что после подсчёта совместной встречаемости единиц анализа сравнивалась частота возможных и фактических появлений этих единиц в тексте. (http://u4isna5.ru/annotacija/472-2012-02-13-19-09-35 и http://psyfactor.org/lib/k-a.htm )

Именно эта часть теории Чарльза Осгуда и была взята нами за основу. Далее мы расскажем, как можно “компьютеризировать” данную количественную методику, а затем сравним данные, полученные в результате использования этой методики с результатами опросов ВЦИОМ на примере отношения общества к мигрантам.

2.
Математическое обоснование методики

В теории вероятностей и мат. статистике величиной, характеризующей степень связи между двумя случайными величинами является коэффициент корреляции. Коэффициент корреляции может принимать значения:

1ϱ1-1 \leq \varrho \leq 1

Если предположить, что обнаружение в тексте выбранных элементов содержани X и Y (слов, словосочетаний) - это случайное событие, то коэффициент корреляции между ними будет тем выше, чем чаще они встречаются вместе:

В статье https://sci-methods.ru/automated-research/ приведено теоретическое обоснование такой оценки, формулы для ее расчета и пример реализации на языке программирования Julia. В связи с большим объемом исследуемого материала (около 300 тысяч статей из Самарских изданий за 2011-2014 годы), сам подсчет упоминаний выполняется в облачной базе данных.

Pkg.add("PlotlyJS")
Pkg.add("Requests")
Pkg.add("MarketTechnicals")
using PlotlyJS
using Requests: get
using MarketTechnicals

count_articles(x,y,m,g) = Requests.json(get("https://npaleeva-toolkit.herokuapp.com/queries/osgood"; query = Dict("q" => x, "q2" => y, "m" => m, "g" => g)))
my_plot(data, field) = Plot(scatter(x=data["dates"], y=data[field]), Layout(yaxis_range=[min(minimum(data[field]), 0),maximum(data[field])]))


function osgood(x, y, m="", w=5, g="month",)
  data = count_articles(x, y, m, g)

  D(n, N, E) = ((N-n) * E^2 + n * (1-E)^2) / (N-1)
  S(Exy, Ex, Ey, Dx, Dy) = (Exy - Ex * Ey) / sqrt(Dx * Dy)

  # appplying moving averages
  moving_average(arr) = sma(arr, w)[:,1]
  N = moving_average(data["total"])
  Nx = moving_average(data["x"])
  Ny = moving_average(data["y"])
  Nxy = moving_average(data["xy"])

  # we can't apply moving averages to dates, so we use "median" approach instead
  shift = convert(Int8, floor(w/2))
  data["dates"] = data["dates"][1+shift:length(data["dates"])-shift]

  data["Px"] = Ex = Nx ./ N
  data["Py"] = Ey = Ny ./ N
  data["Pxy"] = Exy = Nxy ./ N

  data["Dx"] = Dx = D.(Nx, N, Ex)
  data["Dy"] = Dy = D.(Ny, N, Ey)

  data["correlation"] = S.(Exy, Ex, Ey, Dx, Dy)

  return data
end


function plot_osgood(args...)
  data = osgood(args...)
  my_plot(data, "correlation")
end
Done
osgood
Julia




















































































































































































































































































































3.
Калибровка

По своей сути, коэффициент корреляции принимает значения 1ϱ1-1 \leq \varrho \leq 1.

Вот несколько примеров значений коэффициента корреляции для различных пар элементов содержания:

> выборы + президент = 0.2 (с среднем) - 0.7 (в пике)

> защитник + отечество = 0.2 (в среднем) - 0.5 (в пике)

> здоровье + экология = 0.05 (в среднем) ... 0.2 (в пике)

> собака + табуретка = -0.003...0.008 (в среднем)

Отрицательные значения коэффициента корреляции говорят о наличии отрицательной закономерности: данные конструкты умышленно не упоминаются вместе.

Сами по себе абсолютные значения коэффициента корреляции не доказательны: трудно сказать, что означает значение коэффициента корреляции, скажем, "0.2". Интерес представляет сравнение значений коэффициента корреляции среди нескольких пар конструктов. Например, на графиках ниже видно, что в прессе в период с 2004 по 2007 годы слово "кризис" часто упоминаеся со словом "рождаемость", но в 2008-м году эта закономерность меркнет на фоне случившегося финансового кризиса .

При сравнении показателей важно понимать, что пиковые значения коэффициента корреляции будут зависят от выбранного окна сглаживания (чем уже окно - тем острее и выше пики), поэтому важно сравнивать результаты с использованием одинакового окна сглаживания.

4.
Устранение шума

Если построить график коэффициента корреляции для конструктов "выборы" и "президент" с шагом в 1 месяц, то на графике кроме основного пика в марте 2012-го, обусловленного выборами президента РФ, можно заметить много вторичных, всплесков.

plot_osgood("выборы", "президент", "kp_samara_news", 1)
Done
winter-pine
Julia

Этот "шум" носит случайный характер. Он обусловлен, например, статьями, где "вице-президент ... благодарит клиентов за выбор их компании". Для устранения шума можно применять алгоритм скользящего среднего. В зависимости от выбора окна сглаживания, можно настроить алгоритм на детектирование либо отдельных событий, либо долгосрочных трендов.

Если сгладить "шум" используя алгоритм скользящего среднего с шириной окна в 5 месяцев, то становится отчетливо виден основной пик, обусловленный непосредственно президентскими выборами 4 марта 2012 г.

plot_osgood("выборы", "президента", "kp_samara_news", 5)
Done
gentle-shape
Julia

5.
Примеры исследования с помощью методики Ч. Осгуда.

При помощи методики Чарльза Осгуда нами был проанализирован образ мигрантов в прессе Самарской области. “Хронологическими рамками” стал период с 1 января 2011 года по 1 января 2015 года.

Для этого мы взяли шесть изданий (один журнал, пять газет с максимальным тиражом в Самарской области):

1. Журнал “Самара и Губерния”

2. “Волжская коммуна”

3. “Самарская газета”

4. “Комсомольская правда (новости Самары)”

5. “Самарские известия” и

6. “АиФ”

Затем составили “карту” образа мигранта, основываясь на принципах семантического дифференциала, разработанного Осгудом и выбирая следующие пары антонимов, способных характеризовать образ социальной группы:

- хороший - плохой

- понижает уровень преступности - повышает уровень преступности

- знают язык - не знают язык

- улучшают экономику - вредят экономике (отнимают рабочие места)

Затем мы исследовали их компьютеризированной методикой Осгуда, выявляя прилагательные, связанные с образом мигрантов, при необходимости конкретизируя их. Далее - сравнили полученные результаты с массовыми опросами россиян, проведёнными ВЦИОМ в период с 2011 по 2015 годы. (сноска: ВЦИОМ анализирует 5 групп вопросов, связанных с мигрантами: страх / симпатии к приезжим, социальные, политические и экономические ограничения для них, вопросы легального / нелегального пребывания на территории РФ, связь мигрантов с уровнем преступности и коррупции, готовность к акциям протеста в случаях несогласия с миграционной политикой).

Итак, согласно методике Осгуда, у нас получился следующий образ мигранта, транслируемого самарскими СМИ:

Образ мигранта в СМИ (исследование по методике Ч. Осгуда) и по результатам опроса ВЦИОМ

Образ мигранта, транслируемый СМИ и выявленный ВЦИОМ в ходе соц. опросов, совпадают по 2-м из 4-х осей. Видно также, что в СМИ достаточно много пишут о положительном влиянии мигрантов на экономику, хотя общество на момент опроса так не считало. И напротив, большинство респондентов соглашаются с тем, что мигранты плохо знают русский язык, и необходимо "сделать экзамены по русскому языку, литературе, истории России, основам государства и права обязательными для мигрантов" - в то время как в СМИ это умалчивается.

Мигранты - добрые, не злые и не откровенно плохие (“вспышки” анти-мигрантских настроений наблюдались во второй половине 2011-начале 2012 года

plot_osgood("мигрант", "плохой", "", 7)
Done
black-lab
Julia

Образ мигранта лишён агрессивности и лживости - их не подозревают в обмане, они безопасны для коренных жителей. Не изгои, их жалеют (преимущественно из-за несправедливого к ним отношения, связанного с незнанием языка и российских законов)

plot_osgood("мигрант", "несчастный", "", 7)
Done
nameless-frost
Julia

они весьма желанные работники с недорогой оплатой труда. Перечень положительных качеств дополняет доброта мигрантов

plot_osgood("мигрант", "добрый", "", 7)
Done
autumn-recipe
Julia

Они не агрессивны и если агрессия и присутствует в дискурсе о них, то в большинстве случаем имеется в виду агрессия против них.

Подтверждением нейтрально-положительного отношения к мигрантам можем служить и тот факт, что большинство респондентов не знают про “Русские марши”, устраиваемые представителями националистических взглядов а поддерживает только 24% - https://wciom.ru/zh/print_q.php?s_id=934&q_id=64391&date=03.11.2013

https://wciom.ru/zh/print_q.php?s_id=934&q_id=64390&date=03.11.2013

https://wciom.ru/zh/print_q.php?s_id=934&q_id=64392&date=03.11.2013 - или в их регионе они не будут проводится.

“Наплыв мигрантов” поводом к акциям протеста считают всего 36% москвичей (против 59% несогласных из-за представителей иной религии или национальности выходить на улицы) - https://wciom.ru/zh/print_q.php?s_id=780&q_id=55566&date=25.03.2011

Мигранты, олицетворяющие другую культуру, согласно методике Осгуда, “неизвестны” нам:

plot_osgood("мигрант", "неизвестный", "", 7)
Done
throbbing-block
Julia

хотя от этого отнюдь не “пугающи”

plot_osgood("мигрант", "пугающий", "", 7)
Done
rapid-thunder
Julia

Они просто постоянно присутствуют в одном с нами пространстве, становясь эдакой особенностью социального рельефа пространства.

СМИ говорят о мигрантах как о “гостях”, живущих в нашем доме. Хозяева, при этом - русские, “свои”


plot_osgood("мигрант", "хозяин&русский", "", 7)
Done
odd-wood
Julia
plot_osgood("мигрант", "гость", "", 7)
Done
rough-dust
Julia

а приехавшие - те самые гости, которые должны выполнять правила “дома”.

Из метафоры дома вытекает дискурс нелегальности

plot_osgood("мигрант", "нелегальный", "", 7)
Done
sweet-tooth
Julia

в самарских медиа нелегальное местонахождение на нашей территории становится одним из синонимов миграции и подавляющее большинство конструктов о них так или иначе связано с этим статусом.

При преобладающем положительно-нейтральном отношении к мигрантам, 88% респондентов отмечают, что они повышают уровень преступности и коррупции. - https://wciom.ru/zh/print_q.php?s_id=919&q_id=63494&date=14.07.2013

Такую же ситуацию мы видим и в исследовании по методике Ч. Осгуда - с ноября 2012 года отмечается рост конструктов, свидетельствующих о том, что наличие мигрантов негативно сказывается на уровне коррупции и преступности в Самарском регионе. -


plot_osgood("мигрант", "повышают&(преступность|коррупция)", "", 11) 
Done
little-hat
Julia

Повышение уровня преступности связывается с увеличением потока приезжих

plot_osgood("мигрант", "преступность", "", 11)
Done
restless-fire
Julia

Согласно опросам ВЦИОМ 2012 года большинство россиян согласны с тем, что для мигрантов и беженцев необходимо ввести экзамен на знание русского языка, литературы и истории России. - https://wciom.ru/zh/print_q.php?s_id=840&q_id=58846&date=29.01.2012 так считает 67% опрошенных (при 16% затрудняющихся ответить). Похожая картина и в корреляциях Осгуда, только с небольшим временным сдвигом

plot_osgood("мигрант", "экзамен русский язык", "", 11)
Done
damp-violet
Julia

в самарской прессе актуализация дискурса о необходимости введения экзаменов начинается с января 2013 года.

plot_osgood("мигрант", "экзамен&история", "", 11)
Done
hidden-voice
Julia

Если построить график коэффициента корреляции для конструктов "выборы" и "президент" с шагом в 1 месяц, то на графике кроме основного пика в марте 2012-го, обусловленного выборами президента РФ, можно заметить много вторичных, всплесков.


6.
Вывод

plot_osgood("выборы", "президент", "kp_samara_news", 1)
Done
rough-wood
Julia

Использование методики Чарльза Осгуда позволяет обнаружить связь между элементами содержания текста, выявить образ исследуемого феномена, транслируемого СМИ - будь то социальная или этническая группа. Образ мигранта, проанализированный данной методикой, получился у нас весьма подробным и многосоставным, касающимся всех аспектов отношений между приехавшими и “своими”. Результаты автоматизированного мониторинга медиа коррелируют с данными, полученными в результате массового опроса жителей России, что, на наш взгляд, является довольно весомым доказательством эффективности автоматизированной методики Чарльза Осгуда.