Всех нас с детства волнует один вопрос: почему Шерлок Холмс называет себя мастером дедуктивного метода, хотя логика его умозаключений больше напоминает индуктивную: он не торопится с обобщениями и делает их лишь на основе учета всех отдельных фактов, то есть движется снизу вверх, а не сверху вниз (от общего к частному), как того требует дедукция?
Здесь есть какое-то противоречие, и все еще больше запутывается, если мы примем во внимание, что полицейские, которые зачастую противопоставляют себя как сыщиков-практиков Холмсу как мыслителю-теоретику, в большинстве случаев рассуждают точно так же, как он сам. Вот, например, фрагмент из «Этюда в багровых тонах»:
«В этом углу от стены отстал большой кусок, обнажив желтый квадрат шероховатой штукатурки. На ней кровью было выведено RACHE. — Видали? — хвастливо сказал Лестрейд, как балаганщик, представляющий публике аттракцион. — Это самый темный угол, и никому не пришло в голову сюда заглянуть. Убийца — он или она — написал это своей собственной кровью. Глядите, вот кровь стекла со стены, и здесь на полу пятно. Во всяком случае, самоубийство исключается. А почему убийца выбрал именно этот угол? Сейчас объясню. Видите огарок на камине? Когда он горел, этот угол был самый светлый, а не самый темный».
Да и сам Холмс признается в том, что отличия между ним и его антиподами скорее количественного, нежели качественного свойства: «Могу похвастаться, что с первого же взгляда определю вам по пеплу сорт сигары или табака. Между прочим, знание таких мелочей и отличает искусного сыщика от всяких Грегсонов и Лестрейдов».
Холмс просто знает намного больше, чем полицейские. Например, он знает, что Rache по-немецки значит 'месть', а Лестрейд не знает, поэтому делает неверный (но логически безупречный) вывод о том, что это должно быть недописанное имя женщины.
Нам кажется, что подлинное различие между методом Холмса и методом Лестрейда может быть уподоблено популярному в современной компьютерной лингвистике различию между двумя алгоритмами векторного представления слов: continuous bag-of-words (CBOW) и skip-gram (см. иллюстрацию).
Алгоритмически эти модели схожи, однако действуют в противоположных направлениях: CBOW предсказывает слова (например, «коврик») из исходных контекстов («кошка сидит на»), а skip-gram предсказывает контексты из исходных слов.
Логика полицейских — это именно логика skip-gram: есть наиболее вероятный подозреваемый, вычисляемый на основе известной информации, а дальше под него ищутся доказательства вины в данном конкретном случае. Вот яркий пример подобных рассуждений из «Знака четырех»: «Призовем на помощь здравый смысл. Этот Таддеуш Шолто пришел к брату. Завязалась ссора. Это нам известно. Брат мертв, драгоценности исчезли — это тоже известно. Никто не видел брата после ухода Таддеуша. Постель его не тронута. Таддеуш явно пребывает в большом смятении. Как вы видите, я плету сеть вокруг Таддеуша. И сеть затягивается».
А теперь самое важное: со статистической точки зрения, метод CBOW сглаживает большую часть дистрибутивной информации (весь контекст учитывается как одно наблюдение), в то время как метод skip-gram фиксирует каждую пару «контекст-слово» отдельно. В силу этих причин именно последний алгоритм считается более надежным при обработке больших наборов данных, тогда как CBOW оказывается полезным лишь для небольших выборок.