Часть 1: Фоносемантический анализ.
1 текст: Научная статья "Зона 51: что скрывается за мифами о самой секретной базе США".
2 текст: Научная статья "НЛО: как ученые объясняют этот загадочный феномен".
Отличия:
Оба текста посвящены популярным загадочным явлениям (Зона 51 и НЛО), окружённым мифами и теориями заговора и с одной стороны может показаться, самого текста одинаковые, но первый текст говорит о конкретном месте - секретной военной базе "Зоне 51", а второй текст рассказывает о широком явлении неопознанных летающих объектов, которые можно наблюдать где угодно. В первом тексте минимальное использование образности, преобладание технической лексики, а во втором используют больше метафор и образных выражений.
Часть 2: Контент - анализ.
Текст 1:

Word Cloud отличная модель для анализа текста. Сразу видны самые частые слова от наиболее употребляемых к менее популярным. По облаку можно мгновенно понять, о чём речь. Покажите его человеку, который не читал текст и он примерно уловит суть.
Topic Modelling для меня самая непонятная форма определения содержания. Чтобы разобраться, нужно увеличивать количество тем (number of topics) и брать самый скучный, «нечитаемый» текст, который вообще не хочется открывать.
В обоих подходах есть общий недостаток - это предлоги. Они почти всегда лидируют по частоте, хотя и не несут смысла.




