TailWind писал(а):Интересный метод
Например, один из первых алгоритмов бустинга Boost1 использовал каскад из 3-х моделей, первая из которых обучалась на всем наборе данных, вторая – на выборке примеров, в половине из которых первая дала правильные ответы, а третья — на примерах, где «ответы» первых двух разошлись.
У нас же нет набора данных с верными ответами
У нас нет возможности оценить правильный ответ или нет
Не получится )
Необходимо сформулировать что мы ищем,и на этом строить распознавание. Причем в качестве фильтров могут выступать обученные эксперты. Три эксперта в минимальном варианте - это не миллион китайцев, как тут упражнялись в остроумии, а?
Объясню на примере яблок. Мы вводим классификацию: зеленые-красные, кислые-сладкие, большие-маленькие.
У нас будет морока с желтыми яблоками, с пятнистыми, что считать кислым и т.д. Как-то мы решили вопрос. Проверили так:
У нас есть 2 группы по 3 эксперта, и 100 яблок. 80% яблок были одинаково классифицированны первой и второй группой. И на уровне белого шума при сравнении со случайной классификацией. Контрольная группа.
Существуют ли эти типы яблок на самом деле? Может быть да, а может быть и нет. Может быть у нас 213 видов яблок и они как-то влезают в нашу классификацию. А может быть это вообще чисто аналоговое пространство.
Это уже неплохо. Но мы попробуем так сформулировать признаки, чтобы максимально подробно поделить на группы эти 213 вида яблок. Так чтобы один вид попадал максимально строго в один кластер. Несколько видов в один кластер - хорошо, если один вид попадает в несколько наших кластеров - плохо. Это даст нам мощную предсказательную силу, поскольку дополнительные признаки могут иметь смысл. Это будут аналоги ПР, но не нами умозрительно введеные, а полученные экспериментально.
Получив неплохое распределение по кластерам, мы можем поискать закономерности, в чем-то схожие с моделью А. Модель А не работает, это экспериментальный факт. Но мы можем поискать реальные закономерности, и похожие на соционику. Зачем искать похожие? Это прикольно.