Контент-анализ: теория и методы
к.и.н., доц. И.М. Гарскова
Спецкурс посвящен такому перспективному направлению развития информационных технологий в области работы с текстовой информацией, как контент-анализ, т.е. теоретическим и методическим вопросам анализа информации, содержащейся в нарративных (текстовых) источниках (как в электронной, так и в "бумажной" формах) с применением современных компьютерных технологий.
Рассматриваются понятийный аппарат контент-анализа, принципы традиционной и компьютерной обработки и анализа текстов, методы извлечения скрытой информации, представленной в описательном (неструктурированном) виде, а также когнитивные модели понимания текстов.
Изучаются возможности и принципы функционирования прикладного программного обеспечения, предназначенного для анализа текстовой информации. На базе одной из таких программ демонстрируются методика проектирования полнотекстовых баз данных, возможности информационного поиска в таких базах и интерпретации полученной информации (анализ количественных характеристик выделенных смысловых категорий, их семантических полей, а также взаимосвязей этих категорий).
Приводятся примеры применения методов контент-анализа в гуманитарных исследованиях (в сфере истории, политологии, социологии) при изучении различных видов документов.
Тематический план
№№ |
НАЗВАНИЕ ТЕМЫ |
|
Введение |
1 |
Методология и методика контент-анализа |
2 |
Концепции электронного текста. Компьютеризованный контент-анализ |
3 |
Опыт применения контент-анализа при изучении различных типов источников |
4 |
Анализ текста с помощью системы TACT |
5 |
Искусственный интеллект и экспертные системы в анализе текстов |
Программа курса
Введение
- Предпосылки применения контент-анализа в исторических исследованиях
- Предыстория статистических измерений содержания текстов
- История возникновения термина "контент-анализ"
ТЕМА 1. Методология и методика контент-анализа
- Явная (выраженная) и скрытая (структурная) информация
- Суть методов контент-анализа. Основные этапы контент-анализа
- Смысловые единицы – индикаторы и категории
- Виды контент-анализа. Частотный анализ
- Проблема объективности контент-анализа
- Эволюция методов контент-анализа
- Контент-анализ и традиционные методы исследования текстов
ТЕМА 2. Концепции электронного текста. Компьютеризованный контент-анализ
- Электронный текст как информационный ресурс
- Жизненный цикл электронного текста. Основные концепции электронного текста
- Коллекции и архивы электронных текстов. Полнотекстовые системы
- Методы извлечения информации в полнотекстовых системах. Сущность индексирования
- Системы с контролируемым словарем
- Системы со свободным словарем
- Контент-анализ и другие методы автоматизированной обработки электронных текстов
ТЕМА 3. Опыт применения контент-анализа при изучении различных типов источников
- Особенности контент-анализа при изучении хроник, летописей, религиозных текстов
- Применение контент-анализа к материалам прессы
- Контент-анализ массовой корреспонденции и социологических опросов
- Особенности КА данных социологических опросов при исследовании общественного мнения
- Возможности и специфика применения контент-анализа к источникам личного происхождения
- Применение приемов контент-анализа к изучению делопроизводственной документации
- Контент-анализ протоколов, стенограмм, политических документов
ТЕМА 4. Анализ текста с помощью системы TACT
- Система ТАСТ. Текстовая база данных в системе ТАСТ
- Маркирование как способ передачи системе знания о структуре текста
- Запросы в программе TACT
- Понятие шаблона. Создание правил и категорий. Персональная база данных
- Фразовый поиск. Нечеткий поиск
- Возможности уточнения результатов запросов с учетом структуры текста
- Анализ совместной встречаемости (collocate analysis) и коэффициент связи категорий (Z-score).
ТЕМА 5. Искусственный интеллект и экспертные системы в анализе текстов
- Моделирование способов мышления с помощью когнитивных моделей понимания текста
- Системы, основанные на нечеткой логике
- Нейронные сети
- Средства моделирования знаний. Фреймовые системы. Тезаурусы
- Экспертные системы и базы знаний
Литература
- Баранов А.Н. Введение в прикладную лингвистику. М., 2000.
- Блинова О.Н. Опыт изучения экономических программ политических партий России 1990-х гг. // Круг идей: историческая информатика в информационном обществе. М., 2001.
- Бородкин Л.И., Григорьева Ю.Г., Петров А.Н., Селунская Н.Б. Становление российского парламентаризма начала ХХ века (материалы к изучению I Государственной Думы и методы их анализа). М., 1996.
- Брагина Л.М. Методика количественного анализа философских трактатов эпохи Возрождения // Математические методы в историко-экономических и историко-культурных исследованиях. М., 1977.
- Буховец О.Г. Математика в исследовании общественного сознания: крестьянские приговоры и наказы 1905-1907 гг. // Число и мысль. Вып. 9. М., 1986.
- Григорьев С.И., Растов Ю.Е.. Основы современной социологии. Учебное пособие. Барнаул: Издательство АГУ, 2001.
- Деопик Д.В. Опыт количественного анализа древней восточной летописи Чуньцю // Математические методы в историко-экономических и историко-культурных исследованиях. М., 1977.
- Дука А.В. Политический дискурс оппозиции в современной России // Журнал социологии и социальной антропологии. 1998. Т. 1.
- Кобринский А.Л. Проблемы государственного строительства в Российской Федерации (по материалам стенограмм пленарных заседаний Государственной Думы 1993-1995 гг.). М., 2001.
- Ковальченко И.Д., Бородкин Л.И. Современные методы изучения исторических источников с использованием ЭВМ. М.: МГУ, 1987.
- Когнитивные исследования за рубежом. (Идеи и методы искусственного интеллекта в изучении политического мышления) / Под ред. В.М.Сергеева. М., 1990.
- Красильников С.А. Периодическая печать Сибири в период Октября в системе политической пропаганды: К постановке проблемы и методов исследования // Книжное дело Сибири и Дальнего Востока в годы строительства социализма. Новосибирск, 1984.
- Луков В.Б., Сергеев В.М. Опыт моделирования мышления исторических деятелей: Отто фон Бисмарк, 1866–1876 // Вопросы кибернетики. Логика рассуждений и ее моделирование. М., 1983.
- Маджаров А.С. К вопросу о применении контент-анализа к источникам личного происхождения // Проблемы источниковедения и историографии истории Восточной Сибири. Иркутск, 1982.
- Малькова В.К. Применение контент-анализа для изучения интернационального и национального в республиканской прессе // Статистика в этнографии. М., 1985.
- Мангейм Дж.Б., Рич Р.К. Политология. Методы исследования. М., 1997.
- Маркевич А.М. Солдатские письма во ВЦИК и Петросовет в 1917 г. К методике анализа // Круг идей: историческая информатика на пороге XXI века. М. – Чебоксары, 1999.
- Математика в изучении средневековых повествовательных источников. М.,1986.
- Методологические и методические проблемы контент-анализа. Вып. 1-2. М.–Л., 1973.
- Методы количественного анализа текстов нарративных источников. М., 1983.
- Поршнева О.С., Поршнев С.В. К характеристике менталитета народных масс России: революция 1917г. в фокусе массового сознания (опыт статистического анализа писем рабочих, крестьян и солдат в центральные органы Советов рабочих и солдатских депутатов) // Круг идей: историческая информатика на пороге XXI века. М.–Чебоксары, 1999.
- Почепцов Г.Г. Теория коммуникации. М., 2001.
- Сменцарев Г.В. О возможностях анализа исторических источников с помощью систем искусственного интеллекта // Информационный Бюллетень Ассоциации "История и компьютер". М., 2000. № 25.
- Тихонов В.И. Кто достоин избирательных прав? Типология и контент-анализ заявлений лишенцев // Круг идей: макро- и микроподходы в исторической информатике. Труды 5-й конференции Ассоциации "История и компьютер". М. – Минск, 1998.
- Хвостова К.В. Контент-анализ в исследованиях культуры // Одиссей. Человек в истории. Исследования по социальной истории и истории культуры. 1989. М., 1989.
- Хьетсо Г., Густавссон С., Бекман Б., Гил С. Кто написал "Тихий Дон"? (Проблема авторства "Тихого Дона"). М., Книга, 1989.
- Шалак В.И. Современный контент-анализ: Приложения в области: политологии, психологии, социологии, культурологии, экономики, рекламы. М., 2004.
- Шурер К. Искусственный интеллект и историк: перспективы и возможности // История и компьютер: новые информационные технологии в исторических исследованиях и образовании. St. Katharinen, 1993.
- Hawthorne M. The Computer in Literary Analysis: Using TACT with Students // Computers and Humanities. Vol.28. №1. 1994.
- Lancashire I. (ed.). The Humanities Computing Yearbook. 1989/90. A Comprehensive Guide to Software and Other Resources. Oxford. 1991.
- Laswell H.D., Pool I. de S. The Comparative Study of Symbols. Stanford, Calif., 1952.
- Weber R. Basic Content Analysis. Newbury Park. Calif., 1990.
- ТАСТ. User’s Guide. Version 1.2. University of Toronto, 1990.
КОНТРОЛЬНЫЕ ВОПРОСЫ
- Предпосылки применения контент-анализа в исторических исследованиях
- Понятие явной (выраженной) и скрытой (структурной) информации
- История возникновения контент-анализа
- Определение контент-анализа
- Суть методов контент-анализа
- Основные понятия контент-анализа
- Виды контент-анализа
- Этапы контент-анализа
- Понятие о смысловых единицах – категориях и индикаторах
- Чем различаются понятия "смысловая единица" и "единица счета"?
- Понятие частоты встречаемости смысловых единиц, частоты их связанности, "знака" высказывания
- Требования к КА как к измерительной процедуре
- Проблема объективности в контент-анализе
- Контент-анализ и традиционные методы исследования
- Эволюция методов контент-анализа
- Контент-анализ в истории
- Понятие индексирования текста.
- Обратный (инвертированный) файл. Его назначение.
- Основные функциональные возможности системы ТАСТ.
- Общая схема работы с системой ТАСТ.
- Маркирование как способ передачи системе знания о структуре текста. Варианты маркирования.
- Функции утилиты MAKBAS.
- Для чего предназначен файл настройки?
- Что понимается под "контекстом" в программе ТАСТ?
- Способы представления результатов запросов в программе ТАСТ
- Возможности уточнения результатов запросов с учетом структурной информации
- Нечеткий поиск в системе ТАСТ. Понятие шаблона
- Оператор SIMIL как вариант нечеткого поиска
- Сложные запросы с помощью создания "правил"
- Возможность фразового поиска
- Чем отличаются текстовая и персональная базы данных?
- Способы создания категорий в системе ТАСТ
- Метод анализа комбинации слов (collocate analysis). Понятие "сила связи"
- Статистическая мера совместной встречаемости слов и категорий в ТАСТе (Z-score)