Содержание

Раскрываем Тайны Текста: Наш Путеводитель по Миру NLP на Python
Первые Шаги: Подготовка Текста к Анализу
Токенизация и Стемминг: Разбираем Текст на Части с NLTK
Лемматизация: За Гранью Стемминга
Регулярные Выражения (re) и Очистка Текста
Основные Инструменты NLP в Python: Наши Фавориты
NLTK: Универсальный Солдат для Начинающих и Опытных
spaCy: Скорость и Производительность для Продакшена
TextBlob: Простой NLP для Быстрых Задач
Представление Текста: Как Машины "Видят" Слова
Базовые Векторизаторы: CountVectorizer и TfidfVectorizer
Word Embeddings: Word2Vec, GloVe и FastText с Gensim
Векторизация Предложений и Документов: Doc2Vec и Sentence Transformers
Решение Задач NLP: От Классификации до Генерации
Классификация Текстов с Scikit-learn и PyTorch/TensorFlow
Тематическое Моделирование: Открываем Скрытые Темы с Gensim
Анализ Тональности (Sentiment Analysis): Понимаем Эмоции
Распознавание Именованных Сущностей (NER): Извлекаем Факты
Трансформеры (Hugging Face): Новый Уровень NLP
Продвинутые Применения и Практические Вызовы
Многоязычный NLP: Работа с Разнообразием Языков
Веб-Скрейпинг и Извлечение Текста: Beautiful Soup и PyMuPDF
Разработка Чат-Ботов и QA-Систем: Rasa Framework
Анализ Стилистики и Авторского Почерка
Визуализация Текстовых Данных: От Облаков Слов до Тепловых Карт
Вызовы и Перспективы NLP

Раскрываем Тайны Текста: Наш Путеводитель по Миру NLP на Python

Приветствуем вас, дорогие читатели и коллеги-энтузиасты! В мире, где информация является новой валютой, способность извлекать смысл из огромных объемов текста становится не просто ценным навыком, а настоящей суперспособностью. Мы, как команда опытных исследователей и блогеров, на протяжении многих лет погружались в бездонные океаны текстовых данных, и каждый раз Python с его великолепными библиотеками становился нашим надежным кораблем. Сегодня мы приглашаем вас в увлекательное путешествие по миру Обработки Естественного Языка (NLP) – дисциплины, которая позволяет машинам понимать, интерпретировать и даже генерировать человеческую речь.

Мы прекрасно помним те времена, когда каждый новый проект, связанный с анализом текста, казался горой, которую невозможно покорить. Неструктурированные данные, многообразие языков, тонкости человеческой речи – все это создавало барьеры. Но благодаря стремительному развитию Python и его экосистемы, эти барьеры стали исчезать. Мы научились видеть в тексте не просто набор символов, а живой организм, полный скрытых паттернов, эмоций и знаний. В этой статье мы поделимся нашим опытом, расскажем о ключевых инструментах и техниках, которые мы используем ежедневно, и покажем, как вы можете применять их для решения своих задач;

Первые Шаги: Подготовка Текста к Анализу

Прежде чем мы сможем заставить машину "понять" текст, его необходимо тщательно подготовить. Представьте, что вы шеф-повар, а текст – это сырые ингредиенты. Без правильной обработки они не станут изысканным блюдом. В NLP этот этап называется предобработкой, и он критически важен для успеха любого проекта. Мы начинаем с того, что разбиваем текст на более мелкие, управляемые части, очищаем его от "шума" и приводим слова к их базовым формам.

Токенизация и Стемминг: Разбираем Текст на Части с NLTK

Наш первый и самый фундаментальный шаг – это токенизация. Мы делим текст на минимальные смысловые единицы, называемые токенами. Чаще всего токенами выступают слова и знаки препинания. Библиотека NLTK (Natural Language Toolkit) является нашим верным помощником в этом деле. Она предлагает различные токенизаторы, позволяя нам выбрать оптимальный для конкретной задачи – будь то разбиение по словам, предложениям или даже по более сложным правилам.

После токенизации мы часто сталкиваемся с тем, что одно и то же слово может иметь множество форм: "бежать", "бежит", "бежал", "бегущий". Для компьютера это четыре разных слова, но для нас они обозначают одно и то же действие. Здесь на помощь приходят стемминг и лемматизация. Стемминг – это процесс отсечения окончаний и суффиксов, чтобы привести слово к его "основе" или "корню" (например, "бежать" -> "беж"). Мы используем различные стеммеры из NLTK, такие как PorterStemmer или SnowballStemmer, которые хорошо зарекомендовали себя для английского и многих других языков.

Лемматизация: За Гранью Стемминга

Однако стемминг может быть слишком агрессивным и иногда создавать нереальные "корни". Например, "красота" и "красивый" могут свестись к одному корню, хотя это разные части речи. Для более точного приведения слов к их базовой форме мы используем лемматизацию. Лемматизатор (например, WordNetLemmatizer из NLTK или функционал spaCy) приводит слово к его словарной форме (лемме), учитывая его часть речи. Например, "бегущий" станет "бежать", а "лучший" – "хороший". Это значительно улучшает качество дальнейшего анализа, позволяя нам работать с истинным смыслом слов.

Мы часто применяем лемматизацию, когда нам важна высокая точность и сохранение грамматической корректности. Например, при построении поисковых систем или систем вопросно-ответных систем, где малейшая потеря смысла может привести к неверным результатам. Разница между стеммингом и лемматизацией может быть критичной, и мы всегда тщательно выбираем подход в зависимости от требований проекта.

Регулярные Выражения (re) и Очистка Текста

В реальном мире текст редко бывает идеальным. Он полон HTML-тегов, URL-адресов, специальных символов, цифр и другого "мусора". Мы активно используем модуль re (регулярные выражения) в Python для эффективной очистки данных. Это мощный инструмент, позволяющий нам находить и заменять сложные текстовые паттерны. С его помощью мы удаляем ненужные символы, приводим текст к нижнему регистру, обрабатываем эмодзи и даже боремся со сленгом, нормализуя его.

Например, мы можем написать регулярное выражение для удаления всех HTML-тегов или для извлечения только буквенных символов. Это позволяет нам привести текст к единому, чистому формату, который будет легко обрабатывать последующими NLP-алгоритмами. Использование регулярных выражений – это искусство, и мы постоянно оттачиваем свои навыки, чтобы эффективно справляться с самыми разнообразными видами текстового "шума".

Этап Предобработки	Цель	Инструменты/Методы	Пример
Очистка	Удаление "шума" (HTML, URL, спецсимволы)	`re` (регулярные выражения), строковые методы	"`<p>Привет!</p>`" -> "Привет!"
Токенизация	Разделение текста на слова/предложения	NLTK (`word_tokenize`, `sent_tokenize`), spaCy	"Я люблю NLP." -> ["Я", "люблю", "NLP", "."]
Нормализация	Приведение к нижнему регистру, обработка чисел	Строковые методы, `re`	"NLP" -> "nlp"
Стемминг	Приведение слова к корню (агрессивное)	NLTK (PorterStemmer, SnowballStemmer)	"running" -> "run"
Лемматизация	Приведение слова к словарной форме (точная)	NLTK (WordNetLemmatizer), spaCy	"better" -> "good"
Удаление стоп-слов	Удаление часто встречающихся, но неинформативных слов	NLTK (`stopwords`), spaCy	"The cat sat on the mat." -> "cat sat mat."

Основные Инструменты NLP в Python: Наши Фавориты

После того как текст очищен и подготовлен, наступает время для его глубокого анализа. В Python существует целый арсенал библиотек, каждая из которых предлагает уникальные возможности. Мы расскажем о тех, которые стали неотъемлемой частью нашего рабочего процесса и позволяют нам решать широкий круг задач – от простого анализа до построения сложных моделей.

NLTK: Универсальный Солдат для Начинающих и Опытных

NLTK – это фундамент, с которого многие из нас начинали свое знакомство с NLP. Это огромный набор инструментов и ресурсов, который включает в себя все необходимое для базовой обработки текста: токенизацию, стемминг, лемматизацию, POS-теггинг (разметку частей речи) и многое другое. Мы часто используем NLTK для быстрого прототипирования и для задач, где не требуется максимальная производительность или сложная архитектура нейросетей.

Его простота в использовании и обширная документация делают NLTK идеальным для обучения. Мы применяем его для анализа частотности слов и N-грамм, что позволяет нам выявлять ключевые темы и паттерны в текстах. Например, анализ N-грамм помогает нам понять, какие словосочетания наиболее часто встречаются, что особенно полезно при анализе отзывов клиентов или новостных статей.

spaCy: Скорость и Производительность для Продакшена

Когда речь заходит о скорости, эффективности и готовности к продакшену, наш выбор падает на spaCy. Эта библиотека разработана с акцентом на производительность и предлагает предварительно обученные модели для различных языков, включая русский. Мы используем spaCy для таких задач, как распознавание именованных сущностей (NER), синтаксический парсинг, определение частей речи и векторизация слов.

NER с использованием spaCy – это мощный инструмент, который позволяет нам автоматически извлекать из текста имена людей, организаций, географические названия, даты и другие важные сущности. Это бесценно для анализа юридических документов, новостных лент или отзывов. Например, при анализе отзывов клиентов мы можем быстро извлечь названия продуктов и компаний, о которых идет речь. Синтаксический парсинг помогает нам понять грамматическую структуру предложений, что открывает двери для более глубокого анализа отношений между словами.

TextBlob: Простой NLP для Быстрых Задач

Иногда нам нужен быстрый и простой инструмент для базовых NLP-задач, который не требует глубокого погружения в детали. Здесь на помощь приходит TextBlob. Это удобная библиотека, построенная поверх NLTK, которая предоставляет интуитивно понятный API для токенизации, POS-теггинга, анализа тональности и даже перевода. Мы используем TextBlob для быстрого определения языка текста или для экспресс-анализа тональности коротких сообщений.

Однако мы также осознаем ограничения TextBlob. Для более сложных задач, требующих высокой точности или поддержки специфических языков, мы обращаемся к более мощным инструментам, таким как spaCy или специализированные модели. Тем не менее, для прототипирования и образовательных целей TextBlob остается отличным выбором.

Представление Текста: Как Машины "Видят" Слова

Для того чтобы компьютер мог работать с текстом, его необходимо преобразовать в числовой формат. Этот процесс называется векторизацией или созданием эмбеддингов. Мы прошли долгий путь от простых методов до сложных нейросетевых моделей, и каждый из них имеет свои преимущества и области применения.

Базовые Векторизаторы: CountVectorizer и TfidfVectorizer

Наши первые шаги в векторизации текста часто начинаются с CountVectorizer и TfidfVectorizer из библиотеки Scikit-learn. CountVectorizer просто подсчитывает частоту каждого слова в документе, создавая вектор, где каждое измерение соответствует слову из всего корпуса. Это простой, но эффективный метод для задач, где важна абсолютная частотность слов.

Однако мы заметили, что некоторые слова, такие как "и", "в", "на", встречаются очень часто, но не несут много смысла. TfidfVectorizer (Term Frequency-Inverse Document Frequency) решает эту проблему, присваивая словам веса, которые отражают их важность не только в одном документе, но и во всем корпусе. Слова, которые часто встречаються в данном документе, но редко во всех остальных, получают высокий TF-IDF вес, что делает их более значимыми. Мы активно используем TF-IDF для классификации текстов и тематического моделирования, так как он помогает нам выделить действительно уникальные и информативные слова.

Word Embeddings: Word2Vec, GloVe и FastText с Gensim

Современные методы векторизации идут гораздо дальше. Они учатся представлять слова в виде плотных векторов чисел (эмбеддингов), где семантически близкие слова находятся близко друг к другу в многомерном пространстве. Это позволяет моделям улавливать смысловые и контекстуальные связи между словами.

Библиотека Gensim стала нашим незаменимым инструментом для работы с Word Embeddings. Мы активно используем алгоритмы Word2Vec (Skip-gram и CBOW) и GloVe. Word2Vec учится предсказывать соседние слова (Skip-gram) или слово по его контексту (CBOW), создавая удивительно мощные векторные представления. GloVe, в свою очередь, использует глобальную статистику соо встречаемости слов. Эти эмбеддинги позволяют нам выполнять такие операции, как "король ⎼ мужчина + женщина = королева", что демонстрирует их способность улавливать аналогии.

FastText, также поддерживаемый Gensim, расширяет концепцию Word2Vec, учитывая не только слова целиком, но и их подслова (n-граммы символов). Это делает его особенно эффективным для работы с редкими словами и языками с богатой морфологией, где слова могут иметь множество окончаний и приставок. Мы обнаружили, что FastText значительно улучшает качество анализа на таких языках.

Векторизация Предложений и Документов: Doc2Vec и Sentence Transformers

Word embeddings великолепны для слов, но что, если нам нужно получить векторное представление целого предложения или документа? Здесь на помощь приходят Doc2Vec (также часть Gensim) и современные Sentence Transformers. Doc2Vec работает по аналогии с Word2Vec, но учиться создавать эмбеддинги для целых документов, что позволяет нам сравнивать документы по их смысловой близости.

Sentence Transformers – это относительно новая, но очень мощная технология, построенная на архитектуре трансформеров. Она позволяет нам получать высококачественные векторные представления предложений и даже абзацев, которые сохраняют их семантический смысл. Мы используем их для задач поиска семантически похожих предложений, кластеризации текстов и даже для создания вопросно-ответных систем. Это открывает совершенно новые возможности для анализа больших текстовых массивов.

"Я не думаю, что искусственный интеллект сможет полностью заменить человеческое понимание. Но он может значительно расширить наши возможности в обработке и анализе огромных объемов информации."

— Эндрю Ын (Andrew Ng), ведущий эксперт по искусственному интеллекту

Решение Задач NLP: От Классификации до Генерации

Вооружившись знаниями о предобработке и векторизации, мы переходим к самому интересному – применению этих методов для решения реальных задач. Мир NLP огромен и разнообразен, и мы рассмотрим лишь некоторые из наиболее распространенных и мощных приложений, с которыми мы регулярно работаем.

Классификация Текстов с Scikit-learn и PyTorch/TensorFlow

Классификация текстов – одна из самых частых задач в NLP. Мы используем её для автоматической категоризации статей, фильтрации спама, определения тематики новостей или распределения отзывов по категориям. Scikit-learn предоставляет нам широкий спектр классификаторов, таких как SVM, наивный байесовский классификатор, логистическая регрессия, которые мы применяем вместе с TF-IDF или CountVectorizer. Это отличный выбор для задач, где важна скорость обучения и интерпретируемость модели.

Когда же задача становится более сложной, требуя учета контекста и тонких нюансов языка, мы обращаемся к нейронным сетям. С использованием PyTorch или TensorFlow мы строим LSTM-сети, которые способны обрабатывать последовательности слов и улавливать долгосрочные зависимости. В последнее время мы активно применяем BERT и другие трансформерные модели для классификации, которые дают феноменальные результаты благодаря своей способности понимать глубокий контекст.

Тематическое Моделирование: Открываем Скрытые Темы с Gensim

Представьте, что у вас есть огромный архив документов, и вы хотите понять, о чем они. Прочитать их все невозможно. Здесь на помощь приходит тематическое моделирование. С помощью библиотеки Gensim мы применяем такие алгоритмы, как LDA (Latent Dirichlet Allocation) и LSI (Latent Semantic Indexing), чтобы автоматически выявлять скрытые темы в больших коллекциях текстов. Эти модели не требуют предварительной разметки и позволяют нам увидеть, какие группы слов часто встречаются вместе, формируя определенные тематики.

Мы используем тематическое моделирование для анализа отзывов клиентов, чтобы выявить основные проблемы или преимущества продуктов, а также для анализа новостных статей, чтобы отслеживать тренды и сдвиги в общественном мнении. Сравнение моделей тематического моделирования, таких как LDA и NMF (Non-negative Matrix Factorization), позволяет нам выбрать наиболее подходящий алгоритм для конкретного набора данных и получить более точные и интерпретируемые результаты.

Анализ Тональности (Sentiment Analysis): Понимаем Эмоции

В современном мире, где социальные сети и отзывы играют огромную роль, понимание эмоционального окраса текста становится критически важным. Анализ тональности позволяет нам определить, является ли сообщение позитивным, негативным или нейтральным. Для простых случаев мы используем VADER (Valence Aware Dictionary and sEntiment Reasoner), который отлично работает с текстами из социальных сетей, учитывая эмодзи и сленг.

Для более глубокого и контекстуального анализа мы применяем машинное обучение и глубокие нейронные сети. Мы обучаем модели на размеченных данных, что позволяет им улавливать тонкие нюансы сарказма, иронии и других сложных языковых конструкций. Анализ тональности финансовых новостей или отзывов о продуктах помогает нам принимать более обоснованные решения, отслеживать репутацию бренда и выявлять потенциальные проблемы на ранних стадиях. Мы также активно используем PyTorch для создания моделей классификации тональности, что дает нам гибкость и высокую точность.

Распознавание Именованных Сущностей (NER): Извлекаем Факты

NER – это одна из самых мощных техник в NLP, которая позволяет нам автоматически идентифицировать и классифицировать именованные сущности в тексте, такие как имена людей, названия организаций, локации, даты, время и многое другое. Как мы уже упоминали, spaCy – наш основной инструмент для быстрого и точного NER. Мы используем его для извлечения ключевой информации из неструктурированных текстов, будь то новостные статьи, медицинские записи или юридические документы.

Для задач, требующих еще большей точности и гибкости, мы обращаемся к продвинутым моделям, таким как CRF (Conditional Random Fields) или Flair, а также к трансформерным архитектурам вроде BERT. Эти модели позволяют нам обучать собственные NER-системы для специфических доменов, например, для извлечения медицинских терминов или уникальных идентификаторов. Мы всегда оцениваем качество наших NER-моделей с помощью метрик F1-score, Precision и Recall, чтобы убедиться в их надежности.

Трансформеры (Hugging Face): Новый Уровень NLP

Последние годы ознаменовались революцией в NLP благодаря появлению архитектуры Трансформеров. Библиотека Hugging Face Transformers стала де-факто стандартом для работы с этими моделями, предоставляя доступ к сотням предварительно обученных моделей (BERT, GPT, T5 и многие другие). Мы активно используем трансформеры для широкого спектра задач, которые ранее были труднодоступны:

Сложная классификация: тонкая настройка BERT для специфических задач.
Генерация текста: использование GPT-моделей для создания уникального контента, диалогов или даже кода.
Машинный перевод: применение Transformer-моделей для высококачественного перевода, в т.ч. для узкоспециализированных текстов.
Суммаризация текста: создание как экстрактивных (выделение ключевых предложений), так и абстрактивных (генерация нового краткого текста) суммаризаций.
Вопросно-ответные системы (QA): разработка систем, способных отвечать на вопросы на основе предоставленного текста.

Эти модели требуют значительных вычислительных ресурсов, но их производительность и универсальность того стоят. Мы постоянно экспериментируем с точной настройкой (fine-tuning) предварительно обученных моделей на наших собственных данных, что позволяет нам достигать впечатляющих результатов даже на относительно небольших датасетах.

Продвинутые Применения и Практические Вызовы

Мир NLP не ограничивается только базовыми задачами. Мы постоянно сталкиваемся с новыми вызовами и ищем инновационные способы применения наших знаний. От обработки многоязычных данных до создания чат-ботов и анализа стилистики – возможности безграничны.

Многоязычный NLP: Работа с Разнообразием Языков

Мы живем в глобальном мире, и часто нам приходится работать с текстами на разных языках. NLTK, spaCy, Stanza, Polyglot – все эти библиотеки предлагают поддержку различных языков, каждая со своими сильными сторонами. Stanza, например, отлично подходит для языков с богатой морфологией, таких как русский, предоставляя продвинутую лемматизацию и синтаксический анализ. Polyglot, в свою очередь, является отличным выбором для работы с редкими языками, предлагая широкий спектр возможностей, включая определение языка и транслитерацию.

Обработка многоязычных текстовых корпусов требует особого внимания к кодировкам, специфике каждого языка (например, стоп-слова, правила стемминга/лемматизации) и выбору подходящих предварительно обученных моделей. Мы всегда стараемся использовать модели, обученные на данных конкретного языка, чтобы обеспечить максимальную точность.

Веб-Скрейпинг и Извлечение Текста: Beautiful Soup и PyMuPDF

Часто исходные данные для нашего анализа находятся не в аккуратных CSV-файлах, а разбросаны по интернету или заперты в PDF-документах. Для извлечения текста из веб-страниц мы активно используем библиотеку Beautiful Soup. Она позволяет нам парсить HTML и XML-документы, находить нужные элементы по тегам, классам или ID и извлекать чистый текст.

Для работы с PDF-файлами нашим выбором является PyMuPDF (fitz). Эта библиотека позволяет нам не только извлекать текст из PDF, но и работать с его структурой, изображениями и метаданными, что критически важно при анализе юридических документов или научных статей. Комбинация этих инструментов позволяет нам собирать огромные массивы данных для дальнейшего анализа.

Разработка Чат-Ботов и QA-Систем: Rasa Framework

Создание интерактивных систем, способных общаться с пользователями, – это одна из самых захватывающих областей NLP. Мы имеем опыт разработки чат-ботов на Python с использованием фреймворка Rasa. Rasa предоставляет комплексное решение для создания разговорных ИИ, включая NLU (Natural Language Understanding) для понимания намерений пользователя и Core для управления диалогом.

Для систем вопросно-ответных систем (QA) мы часто используем модели на основе трансформеров, которые могут находить точные ответы в больших текстовых корпусах. Эти системы позволяют нам автоматизировать поддержку клиентов, создавать интеллектуальных ассистентов и значительно улучшать пользовательский опыт.

Анализ Стилистики и Авторского Почерка

Иногда задача выходит за рамки простого понимания смысла. Мы сталкиваемся с необходимостью анализа стилистики текстов, определения авторского почерка или даже выявления плагиата. Для этого мы используем комбинацию методов: анализ частотности специфических слов и N-грамм, изучение длины предложений, разнообразия словарного запаса (лексического богатства), а также продвинутые методы векторизации и машинного обучения для сравнения документов и определения сходства. Библиотека Textdistance, например, может помочь нам в измерении сходства строк и текстов, что полезно для поиска дубликатов или плагиата.

Создание словарей и тезаурусов также играет важную роль в этом процессе, позволяя нам более тонко анализировать терминологию и специфический язык различных авторов или предметных областей. Мы также применяем Graph Embeddings для анализа взаимосвязей в тексте, что может помочь в выявлении скрытых паттернов авторского стиля.

Визуализация Текстовых Данных: От Облаков Слов до Тепловых Карт

Сухие цифры и метрики не всегда дают полное представление о текстовых данных. Визуализация помогает нам быстро понять основные паттерны и донести результаты анализа до широкой аудитории. Мы активно используем:

Word Clouds (Облака слов): для наглядного отображения частотности слов. Чем больше слово, тем чаще оно встречается; Это отличный способ быстро показать ключевые термины в документе или коллекции.
Heatmaps (Тепловые карты): для визуализации матриц сходства или корреляции между словами/документами.
Диаграммы частотности N-грамм: для отображения наиболее распространенных словосочетаний, что помогает выявить смысловые блоки.
Визуализация эмбеддингов: уменьшение размерности (например, с помощью t-SNE или UMAP) и отображение слов или документов в 2D/3D пространстве, чтобы показать их семантическую близость.

Инструменты вроде Matplotlib, Seaborn, а также специализированные библиотеки для NLP-визуализации позволяют нам создавать красивые и информативные графики, которые делают наш анализ более доступным и понятным.

Вызовы и Перспективы NLP

Несмотря на все достижения, мир NLP все еще полон вызовов. Работа с неполными и ошибочными данными, учет сарказма и иронии, обработка сленга и эмодзи – все это требует постоянного совершенствования методов и моделей; Мы постоянно ищем способы улучшить качество предобработки, разрабатываем инструменты для проверки грамматики и орфографии, а также тонко настраиваем модели для работы с специфическими особенностями языка.

Будущее NLP кажется невероятно ярким. Мы видим все большее применение глубокого обучения и трансформерных моделей для задач, которые раньше казались неразрешимыми. Разработка инструментов для автоматической разметки данных, создание систем обнаружения плагиата, анализ временных рядов в текстовых данных – это лишь некоторые из направлений, которые мы активно исследуем. Использование GPU-ускорения и распределенных вычислений позволяет нам обрабатывать огромные текстовые массивы (Big Data NLP) и создавать еще более сложные и мощные модели.

Мы убеждены, что Python останется краеугольным камнем в этой области, предоставляя разработчикам и исследователям гибкость, мощь и доступ к огромному сообществу и постоянно развивающейся экосистеме библиотек. Наш путь в мире NLP – это бесконечное обучение, эксперименты и открытие новых горизонтов, и мы рады, что можем делиться этим опытом с вами.

Подробнее

Токенизация NLTK	NER spaCy	Тематическое моделирование LDA	Анализ тональности Python	Word2Vec Gensim
Трансформеры Hugging Face	Векторизация текста TF-IDF	Лемматизация SpaCy	Разработка чат-ботов Rasa	Применение BERT в NLP