Содержание

Разгадывая Язык Машин: Наш Глубокий Погружение в NLP с Python
Первые Шаги: Строительные Блоки NLP
Токенизация и Стемминг: Разбираем Текст на Части
Продвинутая Лемматизация: За Гранью Стемминга
Регулярные Выражения (re) и Очистка Текста
Мощные Инструменты: Библиотеки Python для NLP
NLTK: Старый Добрый Друг
spaCy: Скорость и Производительность
TextBlob: Простота и Быстрота
От Слов к Числам: Векторизация и Встраивания
Разработка Собственных Векторизаторов Текста
Word Embeddings: Word2Vec и GloVe с Gensim
Doc2Vec и Векторизация Предложений/Документов
Интеллектуальный Анализ: От Сентимента до Тем
Анализ Тональности (Sentiment Analysis)
Тематическое Моделирование (LDA, LSI) с Gensim
Извлечение Ключевых Фраз и Суммаризация Текста
Современные Вершины NLP: Трансформеры и Глубокое Обучение
Трансформеры (Hugging Face) для Сложных Задач
PyTorch/TensorFlow для Создания Нейросетей NLP
Flair и Sentence Transformers: Контекстное Встраивание
Решение Реальных Задач: Приложения NLP
Анализ Текста для Извлечения Информации
Создание Интеллектуальных Систем
Работа с Многоязычными и Сложноструктурированными Данными
Практические Аспекты и Вызовы
Очистка Данных и Нормализация
Масштабирование и Оценка Качества
Сравнение Методов и Инструментов

Разгадывая Язык Машин: Наш Глубокий Погружение в NLP с Python

Добро пожаловать, дорогие читатели, в увлекательный мир обработки естественного языка (NLP)! Нас, опытных исследователей и практиков в этой захватывающей области, всегда поражала способность машин понимать, интерпретировать и даже генерировать человеческую речь. Это не просто наука, это искусство, где алгоритмы встречаются с лингвистикой, а данные превращаются в осмысленные инсайты. За последние годы мы видели невероятный прогресс в NLP, превративший некогда фантастические идеи в повседневную реальность – от голосовых помощников и систем машинного перевода до сложнейших анализов настроений и генерации текстов.

В этой статье мы хотим поделиться нашим обширным опытом и проверенными практиками, которые мы накопили, работая с Python – одним из самых мощных и гибких инструментов для разработки NLP-решений. Мы не просто расскажем о концепциях; мы покажем, как эти концепции воплощаются в жизнь с помощью конкретных библиотек и подходов. Наша цель – дать вам всеобъемлющее представление о том, как начать свой путь в NLP, как углубить свои знания и как решать реальные задачи, используя проверенные нами методы. Мы обещаем, что это будет не просто чтение, а настоящее путешествие, полное открытий и практических советов.

Первые Шаги: Строительные Блоки NLP

Прежде чем мы сможем научить машину понимать сложную структуру человеческого языка, нам необходимо разбить этот язык на более мелкие, управляемые части. Это фундамент, на котором строиться вся дальнейшая работа в NLP. Мы начинаем с того, что превращаем необработанный текст в нечто, что алгоритмы могут обрабатывать.

Токенизация и Стемминг: Разбираем Текст на Части

Наш путь в мир NLP всегда начинается с токенизации – процесса разделения текста на отдельные слова или символы, называемые токенами. Представьте себе предложение: "Мы учимся NLP с Python". Токенизация превратит его в список: ["Мы", "учимся", "NLP", "с", "Python", "."]. Это кажется простым, но на деле существует множество нюансов, таких как обработка пунктуации, чисел, сокращений и специальных символов. Мы часто используем библиотеку NLTK, которая предлагает множество токенизаторов, подходящих для разных задач.

После токенизации мы переходим к стеммингу. Стемминг – это процесс уменьшения слова до его корневой формы, или "стема", которая необязательно является лингвистически правильным словом. Например, слова "учится", "учились", "учимся" могут быть сведены к "уч". Это помогает сократить количество уникальных слов и сгруппировать формы одного и того же слова, что полезно для многих задач, таких как поиск информации или классификация. В NLTK есть популярные стеммеры, такие как PorterStemmer и SnowballStemmer, которые мы активно применяем.

Продвинутая Лемматизация: За Гранью Стемминга

Хотя стемминг полезен, он может быть довольно агрессивным и часто приводит к нечитаемым корням. Здесь на помощь приходит лемматизация. В отличие от стемминга, лемматизация преобразует слово к его базовой форме, или "лемме", которая является словарным словом. Например, "был", "есть", "будет" все сводятся к "быть". Это требует знания морфологии языка, поэтому лемматизаторы обычно сложнее и медленнее, но дают более качественные результаты. Мы часто используем WordNetLemmatizer из NLTK или более продвинутые лемматизаторы, доступные в spaCy или Stanza, особенно когда работаем с языками с богатой морфологией, такими как русский.

Регулярные Выражения (re) и Очистка Текста

Перед тем как применять токенизацию или лемматизацию, нам часто приходится проводить предварительную очистку текста. Необработанные данные из интернета или других источников редко бывают идеальными. Они могут содержать HTML-теги, специальные символы, лишние пробелы, URL-адреса и многое другое. Здесь нашими незаменимыми помощниками становятся регулярные выражения (`re`). С их помощью мы можем:

Удалять HTML-теги из текста.
Извлекать или удалять URL-адреса.
Нормализовать пунктуацию и пробелы.
Очищать текст от чисел или специальных символов.
Работать с эмодзи и сленгом, что крайне важно для анализа современных текстов из социальных сетей.

Мы также используем регулярные выражения для маркировки стоп-слов, которые являются часто встречающимися, но малоинформативными словами (например, "и", "в", "на"), и последующего их удаления. Это значительно сокращает размер данных и улучшает производительность многих моделей.

Мощные Инструменты: Библиотеки Python для NLP

Python предлагает невероятное количество библиотек, каждая из которых имеет свои сильные стороны и идеально подходит для определенных задач. Мы рассмотрим те, которые стали нашими верными спутниками в повседневной работе.

NLTK: Старый Добрый Друг

NLTK (Natural Language Toolkit) – это, пожалуй, одна из первых библиотек, с которой мы познакомились в мире NLP. Она является отличной отправной точкой для новичков и мощным инструментом для исследователей. NLTK предоставляет нам доступ к огромному количеству корпусов, лексических ресурсов и алгоритмов для самых разных задач:

Токенизация (различные алгоритмы).
Стемминг и лемматизация.
POS-теггинг (определение частей речи).
Морфологический анализ.
Построение языковых моделей на основе N-грамм.
Анализ частотности слов и N-грамм.

Мы часто используем NLTK для прототипирования и образовательных целей, так как он предоставляет очень четкий и понятный API для базовых операций. Однако для высокопроизводительных задач мы часто обращаемся к другим инструментам.

spaCy: Скорость и Производительность

Когда речь заходит о скорости, производительности и готовности к продакшну, наш выбор часто падает на spaCy. Эта библиотека разработана с акцентом на высокую производительность и предлагает предварительно обученные модели для множества языков. С spaCy мы можем эффективно выполнять:

Распознавание именованных сущностей (NER): Выделение из текста имен людей, организаций, мест, дат и других типов сущностей. Это невероятно полезно для извлечения информации.
Синтаксический парсинг и анализ зависимостей: Построение дерева синтаксических зависимостей между словами в предложении, что помогает понять грамматическую структуру.
Лемматизация: Более точная, чем стемминг, и учитывающая контекст.
Векторизация слов: Получение числовых представлений слов.

Мы особенно ценим spaCy за его способность обрабатывать большие объемы текста быстро и эффективно, что делает его идеальным для крупномасштабных проектов.

TextBlob: Простота и Быстрота

Для задач, требующих быстрого и простого анализа, мы часто обращаемся к TextBlob. Эта библиотека построена на NLTK, но предлагает более высокоуровневый и интуитивно понятный API. TextBlob идеально подходит для:

Простого анализа тональности (Sentiment Analysis).
Определения языка.
Извлечения N-грамм.
Перевода текста.

Мы используем TextBlob для быстрого прототипирования и задач, где не требуется максимальная точность или глубокая настройка. Однако важно понимать его ограничения и при необходимости переходить к более мощным инструментам, когда задачи становятся сложнее.

От Слов к Числам: Векторизация и Встраивания

Компьютеры не "понимают" слова в том смысле, в каком это делаем мы. Чтобы алгоритмы машинного обучения могли работать с текстом, нам необходимо преобразовать слова и предложения в числовые векторы. Это называется векторизацией или встраиванием (embeddings).

Разработка Собственных Векторизаторов Текста

Мы часто начинаем с классических методов векторизации, таких как CountVectorizer и TfidfVectorizer из библиотеки Scikit-learn.

CountVectorizer: Создает матрицу, где каждая строка представляет документ, а каждый столбец – уникальное слово в корпусе. Значение в ячейке – это количество раз, сколько слово появилось в документе. Простой, но эффективный метод.
TfidfVectorizer (Term Frequency-Inverse Document Frequency): Это более продвинутый метод, который не просто считает слова, но и взвешивает их по их важности. Слово, которое часто встречается в одном документе, но редко во всем корпусе, получает больший вес. Это помогает выделить ключевые слова и уменьшить влияние общих слов.

Мы активно используем эти векторизаторы для классификации текстов, кластеризации и других задач, где важна частотность слов.

Word Embeddings: Word2Vec и GloVe с Gensim

Современный NLP значительно продвинулся благодаря концепции Word Embeddings. В отличие от CountVectorizer или TF-IDF, которые рассматривают слова как независимые сущности, Word Embeddings пытаются уловить семантические отношения между словами. Слова, имеющие схожий смысл, располагаются ближе друг к другу в многомерном векторном пространстве.
Мы активно работаем с:

Word2Vec (от Google): Это нейросетевая модель, которая учится представлять слова в виде плотных векторов. У нее есть два основных подхода:

Skip-gram: Предсказывает окружающие слова, зная текущее слово.
CBOW (Continuous Bag of Words): Предсказывает текущее слово, зная окружающие слова;

Наш опыт показывает, что Skip-gram часто лучше работает с редкими словами.

GloVe (Global Vectors for Word Representation) (от Стэнфорда): Это еще один популярный метод, который сочетает в себе статистические подходы с нейронными. Он использует глобальную статистику сопоставления слов для создания векторов.

Мы обучаем эти модели с помощью библиотеки Gensim, которая очень эффективна для работы с большими текстовыми корпусами и тематического моделирования. Gensim позволяет нам не только обучать свои собственные эмбеддинги, но и загружать уже предобученные модели, что значительно ускоряет разработку.

Doc2Vec и Векторизация Предложений/Документов

Если Word Embeddings дают векторы для отдельных слов, то Doc2Vec (Paragraph2Vec), также доступный в Gensim, расширяет эту идею на целые предложения или документы. Doc2Vec создает векторное представление для каждого документа, учитывая контекст слов внутри него. Это позволяет нам сравнивать документы между собой, находить схожие тексты или кластеризовать их на основе семантического сходства. Мы используем Doc2Vec для задач, где необходимо представление всего текста, а не только отдельных слов, например, для систем рекомендаций или обнаружения плагиата.

Интеллектуальный Анализ: От Сентимента до Тем

После того как мы подготовили наш текст и преобразовали его в числовой формат, мы можем приступить к более глубокому анализу.

Анализ Тональности (Sentiment Analysis)

Анализ тональности – одна из самых популярных задач в NLP. Он позволяет нам определить эмоциональную окраску текста: позитивную, негативную или нейтральную. Мы регулярно применяем его для анализа отзывов клиентов, сообщений в социальных сетях (Twitter, Reddit), финансовых новостей и даже отзывов о фильмах.

VADER (Valence Aware Dictionary and sEntiment Reasoner): Мы часто используем VADER из NLTK для анализа тональности, особенно в социальных сетях. Он специально разработан для текстов из социальных медиа и хорошо справляется с эмодзи, сленгом и даже сарказмом (хотя с сарказмом всегда есть сложности!).
Для более сложных задач мы обучаем собственные модели классификации тональности, используя Scikit-learn или даже нейросети с PyTorch/TensorFlow. Мы анализируем тональность по категориям продуктов, выявляем скрытые темы в отзывах с помощью тематического моделирования, что позволяет нам глубже понять настроения пользователей.

"Язык – это дорожная карта культуры. Он говорит вам, откуда пришли люди и куда они идут." – Рита Мэй Браун

Тематическое Моделирование (LDA, LSI) с Gensim

Как понять, о чем говорят тысячи документов, не читая каждый из них? Здесь на помощь приходит тематическое моделирование. Это набор алгоритмов, которые позволяют нам автоматически обнаруживать скрытые "темы" в большом корпусе текстов. Каждая тема представляется набором слов, которые часто встречаются вместе.
В нашей практике мы активно используем Gensim для:

LDA (Latent Dirichlet Allocation): Один из самых популярных алгоритмов тематического моделирования. Он предполагает, что каждый документ является смесью нескольких тем, а каждая тема – смесью слов.
LSI (Latent Semantic Indexing): Более старый, но все еще полезный метод, основанный на сингулярном разложении матрицы терминов и документов.

Мы сравниваем модели тематического моделирования (LDA vs NMF), чтобы выбрать наиболее подходящую для конкретной задачи, будь то анализ текстов блогов, форумов или отзывов о продуктах. Визуализация этих тем с помощью Word Clouds помогает нам быстро понять основные смыслы в больших массивах данных.

Извлечение Ключевых Фраз и Суммаризация Текста

В мире, перегруженном информацией, способность быстро извлекать суть из длинных текстов становится критически важной. Мы используем различные методы для извлечения ключевых фраз и суммаризации текста:

RAKE (Rapid Automatic Keyword Extraction): Простой, но эффективный алгоритм для извлечения ключевых слов из текста на основе их частотности и взаимосвязей.
TextRank: Алгоритм, основанный на PageRank, который мы применяем не только для извлечения ключевых слов, но и для суммаризации текста путем выбора наиболее важных предложений.
Суммаризация текста: Мы различаем два основных типа:

Экстрактивная суммаризация: Выбирает наиболее важные предложения из оригинального текста и объединяет их.
Абстрактивная суммаризация: Генерирует новые предложения, которые передают суть оригинального текста. Это гораздо сложнее и часто требует использования трансформерных моделей.

Мы сравниваем модели суммирования, чтобы понять, какая из них лучше подходит для конкретной задачи – создания кратких аннотаций или генерации новостных сводок.

Современные Вершины NLP: Трансформеры и Глубокое Обучение

Последние годы принесли революцию в NLP благодаря появлению архитектуры Трансформеров и развитию глубокого обучения. Эти технологии кардинально изменили подходы к решению сложных задач.

Трансформеры (Hugging Face) для Сложных Задач

Трансформеры – это архитектура нейронных сетей, которая позволила достичь беспрецедентных результатов в NLP. Их ключевая особенность – механизм внимания, который позволяет модели взвешивать важность различных слов в предложении при обработке. Мы активно используем библиотеку Hugging Face Transformers, которая стала стандартом де-факто для работы с этими моделями.
С помощью трансформеров мы решаем широкий круг задач:

Классификация текста: От анализа тональности до категоризации статей и новостей. Применение BERT для задач классификации показало невероятную эффективность.
Распознавание именованных сущностей (NER): Трансформеры значительно улучшили точность NER, позволяя нам более точно извлекать сущности.
Генерация текста: Модели, такие как GPT, способны генерировать связные и осмысленные тексты, что мы используем для создания диалогов, суммаризации и даже написания кода.
Машинный перевод: Трансформерные модели лежат в основе современных систем машинного перевода, обеспечивая высокое качество даже для сложных языковых пар.
Вопросно-ответные системы (QA): Мы разрабатываем системы, способные отвечать на вопросы, извлекая информацию из больших массивов документов, часто используя BERT или другие трансформерные модели.

Мы также занимаемся тонкой настройкой (Fine-tuning) предварительно обученных трансформерных моделей на наших собственных данных, чтобы адаптировать их к специфическим задачам и повысить их производительность. Это позволяет нам получать state-of-the-art результаты, не обучая модели с нуля.

PyTorch/TensorFlow для Создания Нейросетей NLP

Когда стандартных моделей недостаточно или нам требуется максимальная гибкость, мы обращаемся к фреймворкам глубокого обучения, таким как PyTorch и TensorFlow/Keras. Эти библиотеки позволяют нам создавать и обучать собственные нейросетевые архитектуры для NLP.
Мы используем их для:

Построения LSTM-сетей для анализа последовательностей, таких как текст, когда важен порядок слов.
Разработки моделей для выявления связей между сущностями в тексте.
Применения классификации текста с использованием PyTorch, когда требуется максимальный контроль над архитектурой.
Обработки текста с использованием GPU-ускорения для обработки больших объемов данных.

Эти фреймворки дают нам полный контроль над процессом обучения и позволяют экспериментировать с новыми архитектурами, что критически важно для передовых исследований и разработок.

Flair и Sentence Transformers: Контекстное Встраивание

Векторы Word2Vec и GloVe статичны, то есть каждое слово имеет один и тот же вектор независимо от контекста. Новое поколение эмбеддингов, таких как Sentence Transformers и эмбеддинги из библиотеки Flair, решают эту проблему, создавая контекстные встраивания.

Flair: Мы используем Flair для современного NER и суммаризации. Его контекстные эмбеддинги слов (основанные на LSTM) показывают отличные результаты, особенно для языков с богатой морфологией.
Sentence Transformers: Эта библиотека позволяет нам получать семантически значимые векторные представления для целых предложений и документов. Это невероятно полезно для поиска семантически похожих предложений, кластеризации текстов и даже для создания вопросно-ответных систем.

Векторизация текста с учётом контекста и позиционной информации открывает новые горизонты для анализа лексической сложности и богатства текстов.

Решение Реальных Задач: Приложения NLP

Теория и инструменты важны, но настоящая ценность NLP проявляется в его практическом применении. Мы хотим показать, как мы используем эти знания для решения повседневных и сложных задач.

Анализ Текста для Извлечения Информации

Извлечение конкретной информации из неструктурированного текста – одна из ключевых областей NLP.

NER и CRF: Помимо spaCy и трансформеров, мы также применяем CRF (Conditional Random Fields) для распознавания сущностей, особенно когда у нас есть небольшие, но хорошо размеченные наборы данных.
Извлечение дат и чисел: Разрабатываем системы для автоматического извлечения конкретных данных, таких как даты, суммы, адреса, из медицинских записей, юридических документов или финансовых отчетов.
Извлечение фактов из новостей: Создаем системы, которые могут автоматически идентифицировать и извлекать ключевые факты из новостных статей.
Анализ метаданных текста: Извлекаем информацию о тексте, такую как автор, дата публикации, источник, что помогает в дальнейшем анализе.

Мы также используем библиотеку Textacy для более сложного извлечения информации и работы с зависимостями в тексте.

Создание Интеллектуальных Систем

NLP позволяет нам создавать по-настоящему интеллектуальные системы, которые взаимодействуют с людьми или автоматизируют сложные задачи.

Разработка чат-ботов на Python (Rasa framework): Мы имеем опыт создания диалоговых систем с использованием Rasa, которая предоставляет мощные инструменты для понимания естественного языка (NLU) и управления диалогом.
Системы машинного перевода: Мы разрабатываем системы машинного перевода, как общие, так и узкоспециализированные, используя как классические подходы, так и трансформерные модели.
Системы обнаружения плагиата: Сравниваем документы с использованием Doc2Vec, Sentence Transformers или других методов для измерения сходства, например, с библиотеками Textdistance или Jellyfish.
Системы автоматической категоризации статей и тегирования контента: Автоматически присваиваем категории или теги статьям, новостям, отзывам, что значительно упрощает навигацию и поиск.
Системы для создания FAQ на основе документов: Автоматически генерируем ответы на часто задаваемые вопросы, извлекая информацию из базы знаний.

Работа с Многоязычными и Сложноструктурированными Данными

Мир не ограничивается английским языком. Нам часто приходится работать с многоязычными текстовыми корпусами, что добавляет свои сложности.

Библиотеки Polyglot и Stanza: Для языков с богатой морфологией, таких как русский, мы используем Stanza (от Стэнфорда), которая предоставляет высококачественные модели для токенизации, лемматизации, POS-теггинга и анализа зависимостей. Polyglot также полезна для мультиязычности и анализа редких языков.
Работа с нелатинскими алфавитами: Разрабатываем кастомные токенизаторы и предобработчики для языков с иероглифическими или другими нелатинскими системами письма.
Извлечение текста из PDF (PyMuPDF) и веб-скрейпинг (Beautiful Soup): Часто нам приходится получать текстовые данные из различных источников. PyMuPDF – наш выбор для эффективного извлечения текста из PDF-документов, а Beautiful Soup – для парсинга HTML и веб-скрейпинга.

Практические Аспекты и Вызовы

Реальный мир NLP полон вызовов. Мы хотим поделиться нашими подходами к их преодолению.

Очистка Данных и Нормализация

Неструктурированный текст – это хаос, и его очистка занимает значительную часть нашего времени.

Проблемы обработки неполных и ошибочных данных: Мы разрабатываем robust-алгоритмы, которые могут справляться с опечатками, грамматическими ошибками и неполными предложениями.
Нормализация сленга и пунктуации: Создаем собственные словари и инструменты для нормализации сленга в социальных сетях и обработки нестандартной пунктуации;
Разработка инструментов для проверки грамматики и орфографии: Используем комбинацию регулярных выражений, словарей и алгоритмов сравнения строк (например, Jellyfish) для создания инструментов, помогающих исправлять ошибки.

Библиотека Sweetviz также может быть полезна для начального анализа текстовых данных, помогая выявить аномалии.

Масштабирование и Оценка Качества

Обработка больших текстовых массивов (Big Data NLP) требует особых подходов.

Обработка текста в режиме реального времени (Streaming NLP): Разрабатываем пайплайны, способные обрабатывать текстовые данные по мере их поступления, например, для анализа социальных медиа.
Оценка качества NER-моделей (F1-score, Precision, Recall): Мы всегда тщательно оцениваем производительность наших моделей, используя стандартные метрики. Это помогает нам понять, насколько хорошо модель работает и где есть точки роста;
Разработка инструмента для автоматической разметки данных: Для обучения моделей часто нужна размеченная разметка, и мы создаем инструменты для ускорения этого процесса.

Сравнение Методов и Инструментов

В мире NLP нет универсального решения. Мы постоянно сравниваем различные подходы, чтобы выбрать наиболее оптимальный для конкретной задачи:

Сравнение Методов и Инструментов в NLP
Категория	Метод 1	Метод 2	Преимущества	Недостатки
Лемматизация/Стемминг	SpaCy Lemmatizer	NLTK Stemmers	SpaCy: Контекстность, точность. NLTK: Простота, скорость.	SpaCy: Зависимость от модели. NLTK: Агрессивность, отсутствие лингвистической корректности.
Векторизация	TF-IDF	Word2Vec	TF-IDF: Простота, интерпретируемость. Word2Vec: Семантика, контекст.	TF-IDF: Отсутствие семантики. Word2Vec: Сложность обучения, потребность в данных.
Тематическое моделирование	LDA	NMF	LDA: Вероятностный подход. NMF: Линейная интерпретация.	LDA: Чувствительность к гиперпараметрам. NMF: Отсутствие вероятностной интерпретации.
Классификация текста	SVM	Наивный Байес	SVM: Высокая точность. Наивный Байес: Простота, скорость.	SVM: Долгое обучение на больших данных. Наивный Байес: Наивное предположение о независимости признаков.
Word2Vec	Skip-gram	CBOW	Skip-gram: Лучше для редких слов. CBOW: Быстрее.	Skip-gram: Медленнее. CBOW: Хуже для редких слов.

Мы прошли долгий путь, исследуя основы NLTK, мощь spaCy, тонкости векторизации, глубину тематического моделирования и революционный потенциал трансформерных моделей. Мы поделились нашим опытом в анализе тональности, извлечении ключевых фраз, суммаризации и создании интеллектуальных систем. Мир NLP постоянно развивается, и за ним невозможно уследить, не оставаясь в курсе последних исследований и практических приложений.

Наш опыт показывает, что наиболее успешные проекты в NLP – это те, в которых мы не боимся экспериментировать, сравнивать методы и адаптировать подходы к уникальным особенностям каждого нового набора данных. Python, со своим обширным набором библиотек, остается нашим верным и незаменимым инструментом в этом увлекательном путешествии. Мы надеемся, что эта статья вдохновила вас на собственные исследования и дала вам прочную основу для дальнейшего погружения в мир обработки естественного языка. Помните, что каждый текст – это возможность для нового открытия, и с правильными инструментами в руках мы можем разгадать их все.

Подробнее: LSI Запросы

Основы NLTK	Использование spaCy	Тематическое моделирование LDA	Классификация текста Scikit-learn	Word Embeddings Python
Анализ тональности VADER	Разработка векторизаторов текста	Трансформеры Hugging Face NLP	Продвинутая лемматизация	Библиотека Gensim