Практическое занятие №4. Автоматизированный фоносемантический и контент-анализ

Часть 1: Фоносемантический анализ.

1 текст: Научная статья "Зона 51: что скрывается за мифами о самой секретной базе США".

2 текст: Научная статья "НЛО: как ученые объясняют этот загадочный феномен".

Отличия:

Оба текста посвящены популярным загадочным явлениям (Зона 51 и НЛО), окружённым мифами и теориями заговора и с одной стороны может показаться, самого текста одинаковые, но первый текст говорит о конкретном месте - секретной военной базе "Зоне 51", а второй текст рассказывает о широком явлении неопознанных летающих объектов, которые можно наблюдать где угодно. В первом тексте минимальное использование образности, преобладание технической лексики, а во втором используют больше метафор и образных выражений.

Часть 2: Контент - анализ.

Текст 1:

Текст 2:

Word Cloud отличная модель для анализа текста. Сразу видны самые частые слова от наиболее употребляемых к менее популярным. По облаку можно мгновенно понять, о чём речь. Покажите его человеку, который не читал текст и он примерно уловит суть.

Topic Modelling для меня самая непонятная форма определения содержания. Чтобы разобраться, нужно увеличивать количество тем (number of topics) и брать самый скучный, «нечитаемый» текст, который вообще не хочется открывать.

В обоих подходах есть общий недостаток - это предлоги. Они почти всегда лидируют по частоте, хотя и не несут смысла.

Таисия Добышева

Поиск по этому блогу

Практическое занятие №4. Автоматизированный фоносемантический и контент-анализ