• 1 EUR = 29.01 грн.
  • 1 USD = 26.02 грн.
  • Чет 22.06.2017

Рынки и исследования

Ученые и певцы долговечнее политиков. Анализ британских печатных медиа за 150 лет

Ученые и певцы долговечнее политиков. Анализ британских печатных медиа за 150 лет
Маркетинг и реклама

Работа развивает область т.н. культуромики — метода гуманитарного исследования культурных тенденций с помощью количественного анализа оцифрованного текста. По сути, метод выступает альтернативой классическому подходу изучения исторических документов, обеспечивая ученых новыми средствами для выявления культурных тенденций в больших объемах текстовых данных. Культуромика как термин впервые была использована в статье «Количественный анализ культуры. Использование оцифрованных книг», соавторами которой являются исследователи Гарвардского университета Жан-Батист-Мишель и Эрез Либерман Эйден. Для своего новаторского исследования они использовали корпус Google Books: на его основе создан проект Google Ngram Viewer, который позволяет отслеживать динамику частоты употребления отдельных слов и словосочетаний c течением времени в литературе.

В новой работе ученые решили обратиться к периодическим изданиям: в основу исследования легли тексты английской периодики, вышедшей с 1800 по 1950 годы. Сбор, анализ и оцифровка газет и других периодических изданий осуществляется в рамках масштабного проекта британской библиотеки. Работа по оцифровке уже заняла около десяти лет, и сейчас в доступе по подписке лежат около двенадцати миллионов страниц 535 наименований газет, вышедших с 1800 до 1959 годы; всего британская библиотека хранит порядка 40 миллионов газетных страниц. Для своего исследования ученые отобрали 120 наименований газет (около 14 процентов оцифрованных текстов), представляющих всю географию Великобритании.

Тексты перевели в формат JSON и провели анализ частоты употребления слов и словосочетаний (n-грамм) длиной до трех слов. Исследование не ограничилось подсчетом частоты использования слов: ученые провели семантический анализ географических наименований, организаций и персоналий, которые в текстах могут быть представлены разными словосочетаниями.

Одной из первоначальных целей исследования стало сравнение результатов анализа книг корпуса Google Books и периодики. Как и ожидалось, периодика оказалась гораздо более точной в отражении исторических событий, таких как коронации, конклавы, эпидемии и войны — пики частоты использования соответствующих слов и словосочетаний точно указывают на даты и географию событий, в то время как литература дает более смазанную во времени картину.

Сравнение корпуса Google Docs (B, D) и периодики (A, C) - события гораздо точнее определяются по периодике (войны, коронации)

Сравнение корпуса Google Docs (F, H) и периодики (E, G) - события точнее определяются по периодике (конклавы, эпидемии)

Затем ученые рассмотрели измерения более общих и менее устоявшихся тенденций в следующих сферах: ценности и убеждения, политика, технологии, экономика, социальные изменения и популярная культура в Великобритании.

В отношении ценностей и убеждений авторы проверили гипотезу Фредерика Гиббса и Дэниела Коэна о постепенном снижении влияния викторианских ценностей. Оказалось, что такие понятия, как «мужество», «долг», «выносливость» действительно употребляются все реже с течением времени, за исключением всплесков во время военных действий. Зато такие понятия как «бережливость» и «терпение» не проявили тенденцию к снижению.

Тренд снижения викторианских ценностей согласно гипотезе Гиббса и Коэна

Ученые также исследовали вопрос национальной самоидентификации в Великобритании и выявили четкий тренд смены «английскости» (Englishness) на «британскость» (Britishness) в начале XX века. Особенно яркими всплесками термин «британский» отличается в время мировых войн, в то время как употребление слова «английский» снижается и оказывается даже ниже частоты использования слова «шотландский».

Britishness vs Englishness в английской периодике

Английская периодика четко отражает технологические и экономические прорывы и изменения: так, на границе XIX и XX веков пар сменяется на электричество, поезда заменяют конный транспорт, растет индустрия коммуникаций, а термин «политическая экономика» сменяется на просто «экономику», отражая выделение экономики в отдельный институт со своими правилами и ритмами, независимыми от законов политики.

Технологии и экономика: пар vs электричество, поезда и лошади, рост коммуникаций, снижение политической экономики

В общественной жизни исследования показывают периоды движения суфражисток, а также периоды социальных волнений, связанных с отделением колоний и анархического движения, совпавшего с ростом большевизма и фашизма в восточной и центральной Европе. В исследуемый период заметен большой гендерный разрыв — слова «он», «мужчина» гораздо более частотны по сравнению с «она» и «женщина» — интересно, что в современной периодике такого разрыва не наблюдается (пропорции сравнимы). Также отмечается рост популярной культуры: популярность политиков и общественных деятелей уступает популярности актеров и певцов.

Социальные изменения и популярная культура.

Тенденции популярности профессий в прессе

Семантический анализ текстов, связывающий имена и персоналии в периодике с данными Wikipedia и DBPedia, позволил выявить тренды популярности знаменитостей в зависимости от их профессий — в частности, выяснилось, что слава ученых более долговечна, чем у политиков, и снижается медленнее после смерти.

Исторические персоналии: исследование показывает, что политики и писатели чаще завоевывают популярность при жизни, в отличие от ученых и математиков, которые становятся широко известными после смерти (зато их слава более долговечна).

Ученые отмечают, что основная цель исследования состояла в демонстрации подхода к поиску исторических тенденций и изменений, который основан на анализе больших корпусов текстовых данных. Такой подход является дополнением к традиционному изучению исторических текстов. 
При таком подходе, историки могут исследовать сложные отношения между общественным дискурсом и жизненным опытом путем выявления тенденций в области статистических сигналов, извлеченных из крупномасштабных текстовых корпусов. Метод предназначен для использования в сочетании с традиционными подходами, которые необходимы как для проектирования исследования, так и для интерпретации результатов. Тем не менее, он предоставляет информацию, которую было бы очень трудно найти, используя только классическое изучение текстов.

КОММЕНТАРИИ К ПУБЛИКАЦИИ
САМОЕ СВЕЖЕЕ
полезная информация
Новости шоубизнеса от KINOafisha.ua
Загрузка...
Загрузка...
Расписание кинотеатра Cinema Citi