«Метод Ч. Осгуда в автоматизированном мониторинге медиа»
1. Введение
Быстрое развитие интернет-технологий проникает во все сферы жизни современного общества. Гуманитарная сфера не становится исключением. Благодаря объединению технического и гуманитарного знаний появляются всё новые и новые методы автоматизированной обработки информации. Один из таких примеров - методика Чарльза Осгуда, разработанная в 50-х годах ХХ века как усовершеноствование и продолжение концепции Б. Берелсона “контент-анализ в коммуникационных исследованиях”. На основании этой концепции Ч. Осгуд разработал методику связанности символов, позволявшую определить коррелирующие между собой части содержания текста. (http://www.unn.ru/pages/e-library/methodmaterial/2010/89.pdf )
Им была реализована техника анализа зависимостей элементов содержания для расчёта совместной встречаемости различных элементов в тексте. Её реализация состояла в том, что после подсчёта совместной встречаемости единиц анализа сравнивалась частота возможных и фактических появлений этих единиц в тексте. (http://u4isna5.ru/annotacija/472-2012-02-13-19-09-35 и http://psyfactor.org/lib/k-a.htm )
Именно эта часть теории Чарльза Осгуда и была взята нами за основу. Далее мы расскажем, как можно “компьютеризировать” данную количественную методику, а затем сравним данные, полученные в результате использования этой методики с результатами опросов ВЦИОМ на примере отношения общества к мигрантам.
2. Математическое обоснование методики
В теории вероятностей и мат. статистике величиной, характеризующей степень связи между двумя случайными величинами является коэффициент корреляции. Коэффициент корреляции может принимать значения:
Если предположить, что обнаружение в тексте выбранных элементов содержани X и Y (слов, словосочетаний) - это случайное событие, то коэффициент корреляции между ними будет тем выше, чем чаще они встречаются вместе:
В статье https://sci-methods.ru/automated-research/ приведено теоретическое обоснование такой оценки, формулы для ее расчета и пример реализации на языке программирования Julia. В связи с большим объемом исследуемого материала (около 300 тысяч статей из Самарских изданий за 2011-2014 годы), сам подсчет упоминаний выполняется в облачной базе данных.
Pkg.add("PlotlyJS") Pkg.add("Requests") Pkg.add("MarketTechnicals") using PlotlyJS using Requests: get using MarketTechnicals count_articles(x,y,m,g) = Requests.json(get("https://npaleeva-toolkit.herokuapp.com/queries/osgood"; query = Dict("q" => x, "q2" => y, "m" => m, "g" => g))) my_plot(data, field) = Plot(scatter(x=data["dates"], y=data[field]), Layout(yaxis_range=[min(minimum(data[field]), 0),maximum(data[field])])) function osgood(x, y, m="", w=5, g="month",) data = count_articles(x, y, m, g) D(n, N, E) = ((N-n) * E^2 + n * (1-E)^2) / (N-1) S(Exy, Ex, Ey, Dx, Dy) = (Exy - Ex * Ey) / sqrt(Dx * Dy) # appplying moving averages moving_average(arr) = sma(arr, w)[:,1] N = moving_average(data["total"]) Nx = moving_average(data["x"]) Ny = moving_average(data["y"]) Nxy = moving_average(data["xy"]) # we can't apply moving averages to dates, so we use "median" approach instead shift = convert(Int8, floor(w/2)) data["dates"] = data["dates"][1+shift:length(data["dates"])-shift] data["Px"] = Ex = Nx ./ N data["Py"] = Ey = Ny ./ N data["Pxy"] = Exy = Nxy ./ N data["Dx"] = Dx = D.(Nx, N, Ex) data["Dy"] = Dy = D.(Ny, N, Ey) data["correlation"] = S.(Exy, Ex, Ey, Dx, Dy) return data end function plot_osgood(args...) data = osgood(args...) my_plot(data, "correlation") end
3. Калибровка
По своей сути, коэффициент корреляции принимает значения .
Вот несколько примеров значений коэффициента корреляции для различных пар элементов содержания:
> выборы + президент = 0.2 (с среднем) - 0.7 (в пике)
> защитник + отечество = 0.2 (в среднем) - 0.5 (в пике)
> здоровье + экология = 0.05 (в среднем) ... 0.2 (в пике)
> собака + табуретка = -0.003...0.008 (в среднем)
Отрицательные значения коэффициента корреляции говорят о наличии отрицательной закономерности: данные конструкты умышленно не упоминаются вместе.
Сами по себе абсолютные значения коэффициента корреляции не доказательны: трудно сказать, что означает значение коэффициента корреляции, скажем, "0.2". Интерес представляет сравнение значений коэффициента корреляции среди нескольких пар конструктов. Например, на графиках ниже видно, что в прессе в период с 2004 по 2007 годы слово "кризис" часто упоминаеся со словом "рождаемость", но в 2008-м году эта закономерность меркнет на фоне случившегося финансового кризиса .
При сравнении показателей важно понимать, что пиковые значения коэффициента корреляции будут зависят от выбранного окна сглаживания (чем уже окно - тем острее и выше пики), поэтому важно сравнивать результаты с использованием одинакового окна сглаживания.
4. Устранение шума
Если построить график коэффициента корреляции для конструктов "выборы" и "президент" с шагом в 1 месяц, то на графике кроме основного пика в марте 2012-го, обусловленного выборами президента РФ, можно заметить много вторичных, всплесков.
plot_osgood("выборы", "президент", "kp_samara_news", 1)
Этот "шум" носит случайный характер. Он обусловлен, например, статьями, где "вице-президент ... благодарит клиентов за выбор их компании". Для устранения шума можно применять алгоритм скользящего среднего. В зависимости от выбора окна сглаживания, можно настроить алгоритм на детектирование либо отдельных событий, либо долгосрочных трендов.
Если сгладить "шум" используя алгоритм скользящего среднего с шириной окна в 5 месяцев, то становится отчетливо виден основной пик, обусловленный непосредственно президентскими выборами 4 марта 2012 г.
plot_osgood("выборы", "президента", "kp_samara_news", 5)
5. Примеры исследования с помощью методики Ч. Осгуда.
При помощи методики Чарльза Осгуда нами был проанализирован образ мигрантов в прессе Самарской области. “Хронологическими рамками” стал период с 1 января 2011 года по 1 января 2015 года.
Для этого мы взяли шесть изданий (один журнал, пять газет с максимальным тиражом в Самарской области):
1. Журнал “Самара и Губерния”
2. “Волжская коммуна”
3. “Самарская газета”
4. “Комсомольская правда (новости Самары)”
5. “Самарские известия” и
6. “АиФ”
Затем составили “карту” образа мигранта, основываясь на принципах семантического дифференциала, разработанного Осгудом и выбирая следующие пары антонимов, способных характеризовать образ социальной группы:
- хороший - плохой
- понижает уровень преступности - повышает уровень преступности
- знают язык - не знают язык
- улучшают экономику - вредят экономике (отнимают рабочие места)
Затем мы исследовали их компьютеризированной методикой Осгуда, выявляя прилагательные, связанные с образом мигрантов, при необходимости конкретизируя их. Далее - сравнили полученные результаты с массовыми опросами россиян, проведёнными ВЦИОМ в период с 2011 по 2015 годы. (сноска: ВЦИОМ анализирует 5 групп вопросов, связанных с мигрантами: страх / симпатии к приезжим, социальные, политические и экономические ограничения для них, вопросы легального / нелегального пребывания на территории РФ, связь мигрантов с уровнем преступности и коррупции, готовность к акциям протеста в случаях несогласия с миграционной политикой).
Итак, согласно методике Осгуда, у нас получился следующий образ мигранта, транслируемого самарскими СМИ:
Образ мигранта, транслируемый СМИ и выявленный ВЦИОМ в ходе соц. опросов, совпадают по 2-м из 4-х осей. Видно также, что в СМИ достаточно много пишут о положительном влиянии мигрантов на экономику, хотя общество на момент опроса так не считало. И напротив, большинство респондентов соглашаются с тем, что мигранты плохо знают русский язык, и необходимо "сделать экзамены по русскому языку, литературе, истории России, основам государства и права обязательными для мигрантов" - в то время как в СМИ это умалчивается.
Мигранты - добрые, не злые и не откровенно плохие (“вспышки” анти-мигрантских настроений наблюдались во второй половине 2011-начале 2012 года
plot_osgood("мигрант", "плохой", "", 7)
Образ мигранта лишён агрессивности и лживости - их не подозревают в обмане, они безопасны для коренных жителей. Не изгои, их жалеют (преимущественно из-за несправедливого к ним отношения, связанного с незнанием языка и российских законов)
plot_osgood("мигрант", "несчастный", "", 7)
они весьма желанные работники с недорогой оплатой труда. Перечень положительных качеств дополняет доброта мигрантов
plot_osgood("мигрант", "добрый", "", 7)
Они не агрессивны и если агрессия и присутствует в дискурсе о них, то в большинстве случаем имеется в виду агрессия против них.
Подтверждением нейтрально-положительного отношения к мигрантам можем служить и тот факт, что большинство респондентов не знают про “Русские марши”, устраиваемые представителями националистических взглядов а поддерживает только 24% - https://wciom.ru/zh/print_q.php?s_id=934&q_id=64391&date=03.11.2013
https://wciom.ru/zh/print_q.php?s_id=934&q_id=64390&date=03.11.2013
https://wciom.ru/zh/print_q.php?s_id=934&q_id=64392&date=03.11.2013 - или в их регионе они не будут проводится.
“Наплыв мигрантов” поводом к акциям протеста считают всего 36% москвичей (против 59% несогласных из-за представителей иной религии или национальности выходить на улицы) - https://wciom.ru/zh/print_q.php?s_id=780&q_id=55566&date=25.03.2011
Мигранты, олицетворяющие другую культуру, согласно методике Осгуда, “неизвестны” нам:
plot_osgood("мигрант", "неизвестный", "", 7)
хотя от этого отнюдь не “пугающи”
plot_osgood("мигрант", "пугающий", "", 7)
Они просто постоянно присутствуют в одном с нами пространстве, становясь эдакой особенностью социального рельефа пространства.
СМИ говорят о мигрантах как о “гостях”, живущих в нашем доме. Хозяева, при этом - русские, “свои”
plot_osgood("мигрант", "хозяин&русский", "", 7)
plot_osgood("мигрант", "гость", "", 7)
а приехавшие - те самые гости, которые должны выполнять правила “дома”.
Из метафоры дома вытекает дискурс нелегальности
plot_osgood("мигрант", "нелегальный", "", 7)
в самарских медиа нелегальное местонахождение на нашей территории становится одним из синонимов миграции и подавляющее большинство конструктов о них так или иначе связано с этим статусом.
При преобладающем положительно-нейтральном отношении к мигрантам, 88% респондентов отмечают, что они повышают уровень преступности и коррупции. - https://wciom.ru/zh/print_q.php?s_id=919&q_id=63494&date=14.07.2013
Такую же ситуацию мы видим и в исследовании по методике Ч. Осгуда - с ноября 2012 года отмечается рост конструктов, свидетельствующих о том, что наличие мигрантов негативно сказывается на уровне коррупции и преступности в Самарском регионе. -
plot_osgood("мигрант", "повышают&(преступность|коррупция)", "", 11)
Повышение уровня преступности связывается с увеличением потока приезжих
plot_osgood("мигрант", "преступность", "", 11)
Согласно опросам ВЦИОМ 2012 года большинство россиян согласны с тем, что для мигрантов и беженцев необходимо ввести экзамен на знание русского языка, литературы и истории России. - https://wciom.ru/zh/print_q.php?s_id=840&q_id=58846&date=29.01.2012 так считает 67% опрошенных (при 16% затрудняющихся ответить). Похожая картина и в корреляциях Осгуда, только с небольшим временным сдвигом
plot_osgood("мигрант", "экзамен русский язык", "", 11)
в самарской прессе актуализация дискурса о необходимости введения экзаменов начинается с января 2013 года.
plot_osgood("мигрант", "экзамен&история", "", 11)
Если построить график коэффициента корреляции для конструктов "выборы" и "президент" с шагом в 1 месяц, то на графике кроме основного пика в марте 2012-го, обусловленного выборами президента РФ, можно заметить много вторичных, всплесков.
6. Вывод
plot_osgood("выборы", "президент", "kp_samara_news", 1)
Использование методики Чарльза Осгуда позволяет обнаружить связь между элементами содержания текста, выявить образ исследуемого феномена, транслируемого СМИ - будь то социальная или этническая группа. Образ мигранта, проанализированный данной методикой, получился у нас весьма подробным и многосоставным, касающимся всех аспектов отношений между приехавшими и “своими”. Результаты автоматизированного мониторинга медиа коррелируют с данными, полученными в результате массового опроса жителей России, что, на наш взгляд, является довольно весомым доказательством эффективности автоматизированной методики Чарльза Осгуда.