Ответ 1
Абсолютно возможно, и действительно, запись успеха в идентификации автора с текстом или его частью впечатляет.
Несколько представительных исследований (предупреждение: ссылки на файлы в формате pdf):
Чтобы помочь вашему веб-поиску, эту дисциплину часто называют Stylometry (а иногда и стилогенетикой).
Итак, два наиболее важных вопроса: я полагаю: какие классификаторы полезны для этой цели и какие данные подаются в классификатор?
Что я все еще удивляю, так это то, как мало данных требуется для достижения очень точной классификации. Часто данные представляют собой только список частот слов. (Каталог справочных списков слов доступен онлайн здесь.)
Например, один набор данных, широко используемый в Machine Learning и доступный из нескольких мест в Интернете, состоит из данных четырех авторов: Шекспира, Джейн Остин, Джека Лондона, Милтона. эти работы были разделены на 872 штуки (что соответствует примерно главам), другими словами, около 220 различных существенных фрагментов текста для каждого из четырех авторов; каждая из этих частей становится единой точкой данных в наборе данных. Затем для каждого текста выполнялось сканирование частоты слов, а для исследования использовались 70 наиболее распространенных слов, остальные результаты сканирования частоты были отброшены. Вот первые 20 из этого списка из 70 слов.
['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']
Каждая точка данных тогда является просто количеством каждого слова из 70 слов в каждой из 872 глав.
[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
Каждая из этих точек данных является одним из экземпляров литературного отпечатка автора.
Конечный элемент в каждой точке данных представляет собой целое число (1-4), представляющее один из четырех авторов, которому принадлежит этот текст.
Недавно я запустил этот набор данных с помощью простого неконтролируемого алгоритма ML; результаты были очень хорошими - почти полное разделение четырех классов, которое вы можете увидеть в моем Ответ на предыдущий Q на StackOverflow, связанный с классификацией текста с использованием ML вообще, а не идентификации автора.
Итак, какие другие алгоритмы используются? По-видимому, большинство алгоритмов машинного обучения в контролируемой категории могут успешно разрешать такие данные. Среди них часто используются многослойные персептроны (MLP, ака, нейронные сети) (Author Attribution Using Neural Networks - это один из таких часто цитируемых исследование).