Как ИИ расшифровывал манускрипт Войнича

В конце января СМИ сообщили (раз, два, три) , что «искусственный интеллект прочитал манускрипт Войнича» — то есть раскрыл загадку, над которой бьется уже не одно поколение ученых. Несмотря на очевидные успехи ИИ во множестве областей, на этот раз полезность алгоритмов сильно преувеличена. Редакция AIN.UA рассказывает, чем примечателен манускрипт, о чем он может рассказать и почему до сих пор не расшифрован.

Что за манускрипт Вуйнича?
Одна из самых загадочных книг в истории человечества. Фолиант на 246 страниц, который хранится в библиотеке Йельского университета. Ориентировочно датирован XV веком и написан на неизвестном языке. В 1912 году его купил у иезуитов польско-литовский библиофил Вильфред Войнич, после смерти которого таинственный текст унаследовал его имя. Автор манускрипта неизвестен, но предполагается, что рукопись создана на территории Центральной Европы. С момента приобретения Войничем, книгу никто не расшифровал.

манускрипт

Есть идеи, о чем манускрипт?
Конкретных предположений мало. Рукописи недостает страниц, а существующие могут быть перепутаны. Зато ее обильно украшают иллюстрации, написанные разноцветными чернилами: одна из картинок, например, изображает чан с голыми женщинами, соединенными какой-то трубкой. Присутствуют также виды крепостных стен, монстров и драконов.

Исторические сводки показывают, что манускрипт Войнича впервые засветился при королевском дворе в Германии, где император купил его для помощи придворному астрологу, ошибочно приняв текст за раннюю работу английского естествоиспытателя Роджера Бэкона. Ученые же разделили диковинные книгу по диковинным картинкам, на шесть разделов: травы, астрономия, биология, космология, фармацевтические сведения и рецепты. Текст может быть как средневековым научным пособием, так и алхимическим справочником.

Почему его так сложно расшифровать?
Все дело в отсутствии хоть каких-то исходных данных. Автор использовал неизвестный лингвистам алфавит — его ни разу не встречали ни в более ранних текстах, ни потом. Система письма достаточно привычна: текст читается слева направо, регулярно встречаются не более 30 символов, присутствует разбиение на предложения и параграфы. Но совпадений с языками времен Средневековья нет.

Главное предположение ученых — создатель манускрипта вооружился одним из самых древних шифров, методом подстановки. При его использовании буквы реального алфавита заменяются другими символами или выдуманными элементами. Также рассматриваются версии о том, что раскрыть значение манускрипта можно лишь с помощью отдельной кодовой книги, он написан на искусственном языке, зашифрован стенографически или просто является искусной мистификацией.

Так что там с искусственным интеллектом?
Исследование, поднявшее шумиху в прессе, называется Decoding Anagrammed Texts Written in an Unknown Language and Script и было опубликовано еще в 2016 году. Его написали ученые из Альбертского университета в Канаде: профессор компьютерных наук Грег Кондрак и аспирант Брэдли Хауэр. Публикация засветилась на научных конференциях в 2017 году.

В ее основе — описание универсального метода, с помощью которого можно определить исходный язык зашифрованного текста. Предположение канадцев заключалось в том, что манускрипт, помимо шифра подстановки, может представлять собой большую альфаграмму — это вид анаграммы, в которой буквы переставляются по алфавиту. Например, слово «статья» превращается в «асттья». Если запечатлеть специфические повторения букв или частей слов, полученный цифровой «отпечаток» удастся сопоставить с реальной письменностью.

Чтобы натренировать собственноручно разработанный алгоритм ученые «скормили» ему декларацию прав человека, переведенную на 380 языков. Результаты оказались обнадеживающими — ИИ определял языки с 97% точностью. Когда такую же проверку прошел манускрипт Войнича, его первоисточником был назван иврит. Правда, стоит сразу развеять ожидания — примененный ИИ не полагался на глубинное обучение или нейронные сети. Применялся старый-добрый статистический анализ.

Удалось ли прочесть манускрипт?
Не совсем. Алгоритм подсказал исследователям, что 80% слов из манускрипта больше всего совпадают с ивритом. Но они все еще не знали, какой код использовался для шифрования. Кондрак и Хауэр обратились к носителям иврита с просьбой перевести первое предложение на современный английский — безуспешно.

Тогда они прогнали его через Google Translate, исправили очевидные грамматические ошибки и получили следующее: «Она дала рекомендации священнику, главе дома, и мне и людям». Странный результат — но признать за ним какой-то смысл действительно можно. В первой части текста также обнаружили слова «земледелец», «воздух», «свет» и «огонь»

В чем тогда проблема?
В допущениях и преувеличениях. Исследовательские методы Кондрака и Хауэра несовершенны. Для начала, их алгоритм был натренирован на современных языках — они серьезно отличаются от своих предшественников из Средневековья. У иврита, например, существенно поменялась грамматика, вокабуляр и произношение слов.

Следующий промах – хотя алгоритм и называет лучшее языковое совпадение, он не сообщает точного процента, с которым лидирует определенный язык. Любой высший результат в таких условиях принимается за достоверный. Ученый, к которому Кондрак обращался за первичной расшифровкой, вспоминает, что канадец также указывал на высокий уровень совпадения с малайским языком — а ведь он принципиально отличается от иврита.

Третья вольность касается сути манускрипта. Кондрак и Хауэр предположили, что помимо общепринятого использования шифра подстановки текст также переведен в анаграммы. В научном сообществе нет консенсуса по этому поводу — но что более интересно, этот подход облегчает перевод. Дело в том, что в иврите используется абджад или консонантное письмо, в котором отсутствуют гласные. Если предположить, что манускрипт написан на иврите, да еще и анаграммами (то есть с перестановкой букв), то откроется слишком широкое поле для трактовок: набор букв можно тасовать, подставляя согласные, до получения любого вменяемого результата.

Правда, винить Кондрак и Хауэр за преувеличения не стоит — статус первооткрывателей им приписала пресса, сами же ученые признавались, что открытая методика послужит лишь «отправной точкой».

То есть манускрипт все еще остается нераскрытой загадкой?
Да! Криптологи, историки и лингвисты продолжат ломать над ним голову. Ранее уже выдвигались странные теории — вплоть до идеи, что манускрипт является руководством по женскому здоровью. Так что не стоит бездушному алгоритму отнимать у исследователей такую ценную загадку. К слову, текст манускрипта оцифрован и доступен онлайн — попробовать себя в расшифровке может любой желающий.

Михаил Сапитон, AIN.ua

Loading...
Loading...