07.мая.2026
Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?
Пока мы воспринимаем свои промпты как обычный текст из символов, для LLM они в виде токенов «выглядят» совсем иначе. И если не осознавать этого, порой можно наткнуться на проблемы. Поэтому полезно (и интересно) понимать: что вообще представляют собой токены? По какому алгоритму текст преобразуют в них и обратно? Какие важные нюансы при этом возникают?Возможно, подробнее и понятнее всех объяснил пару лет назад ИИ-рисерчер Андрей Карпатый, записав двухчасовое видео на английском. А теперь мы решили сделать хабрапост, который и пересказывает на русском главное из этого видео, и делает поправку на прошедшее время, и учитывает другие источники (вроде книги «Build a Large Language Models from Scratch»). Описанное применимо к мейнстримовым LLM вроде GPT, в других моделях возможны отличия. Читать далее
Название: Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?
Ссылка на источник:
https://habr.com/ru/companies/gazprombank/articles/1032406/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032406