К концу подходит эксперимент детектирования Формы Мышления.
Независимо от какое отношение имеет форма мышления к типу а-ля соционический тип, если в результате получаем не белый шум, его можно положить как часть типологии, которую можно распознать реально, а нет на словах.
20 авторов - выборка маловата для глобальных выводов, но отличный задел для ручной обработки.
Поставим задачу усиления распознавания ФМ мышления путем применения каскадирования классификаторов. В нашем случае классификаторы - это живые типировщики.
Как выглядит готовый каскад, если он нами уже построенДля начала упрощу задачу на 2 формы мышления, чтобы самому не запутаться.
Первый типировщик T1 делит все тексты на два множества, две формы мышления: MF1, MF2
Допустим, он протипировал конкретный текст в FM1. Мы знаем, что вероятность его верного типирования будет b (ее мы вычислили по самосходимости, поскольку мы понятия не имеем что такое "истинный тип по ФМ"). Вероятность ошибки, соответственно, (1-b)
Мы подаем результат типирования, если он положительный для MF1, другому типировщику T2, и если он типировал в MF2, то другому типировщику.
Тория говорит, что правильно выбирая такие цепочки, мы можем как угодно увеличивать надежность детектирования, до любой точности.
ПроблемыПервая проблема как раз в том, что нам неизвестен "истинный тип". Поэтому затруднительно сообразить как делать каскады и считать вероятности. Для этого надо изучать тему самообучающихся классификаторов, это некоторое количество непривычной математики и требуется время.
Вторая проблема исходит из первой: результат может сойтись на "всех в доны", к одному типу. Чтобы этого не произошло, надо максимально расширять эксперимент на людей, которые не попадают в узкие рамки одних и тех же типов. В частности, далеко не каждому захочется писать рассказы вообще, и тем более на темы аналогичные кувалдовским. По мне так его темы заведомая белиберда, которые не стоят усилий. А кому-то понравились. Налицо фильтрующая классификация входной выборки, которая очевидно исказит результат.
Мысли, что можно сделатьНадо будет попробовать построить каскад на готовых результатах типирования и посмотреть, какие будут типы у людей. Подбирать таким образом, чтобы выход каскадного классификатора имел максимальную сходимость.
Что такое будет этот каскадный классификатор: это будет алгоритм, некоторая последовательность применения типирований из эксперимента, которая выдаст тип, имеющий максимальную самосходимость. Если это не будет типирование в один тип, то результат можно считать успешным. И можно будет попробовать распространить работу каскадного классификатора на новые типирования теми же типировщиками, но новых текстов.
Что популярное почитатьПочитать про каскадирование лучше всего в популярных статьях с описанием алгоритма Виолы-Джонса. Лучше брать статьи не с Вики, там засели люди, которые не пытаются излагать доступно, они преследуют какие-то иные цели. Есть довольно много статей на Хабре.
P.S. Кто там вспоминает шуточные рассказы про миллионы людей, исполняющие роли вентилей, подавитесь своей фантазией, в первых каскадах Виолы-Джонса использовалось всего 3 классификатора.