не совсем в тему но показалось интересным
https://habr.com/ru/company/bastion/blog/721986/
Вас похекали! Как мы приносим клиентам дурные вести из Даркнета
Зы показалось интересным про анализ текста, ранее как то не задумывался.
" Когда Эдвард Сноуден только начал общаться с журналистами, то просил не делать из его сообщений длинных цитат, чтобы его не вычислили таким образом.
Тут есть несколько подходов. Первый — семантика. То есть, смысловые характеристики текстов, темы и так далее. Так называемый алгоритм мешочка слов. Он считается неточным, так как если взять, например, все тексты из нашего блога — у них будут примерно одни и те же семантические характеристики. Различить авторов так не получится.
Второй подход, так называемые стилометрические характеристики: частота использования различных стилевых элементов, длина предложений, отдельные фразы и конструкции, слова.
Третий подход — кластеризация и классификация с помощью машинного обучения. Тексты векторизуются, например при помощи Word2vec и сравниваются уже сами вектора. Определяется их близость, и на этой основе уже можно делать какие-то выводы.
В общем, сценарий вполне реальный"