Естественно-языковые модели. Материалы

Простейший вводный материал об NLP

Извлечение именованных сущностей – это выделение из предложений на естественном языке:

-      топонимов ( географических названий и мест, посещаемых людьми);

  -   имен (ФИО);

-      дат событий и времени;

-      денежных сумм;

-      наименований предприятий;

-      других устойчивых наименований.

Эта задача хорошо изучена, для английского языка существует множество коммерческих и открытых решений:

 SpacyStanford NEROpenNLPNLTKMITIEGoogle Natural Language, APIParallelDotsAylienRosetteTextRazor.

Для русского языка тоже есть хороший инструментарий, но в основном закрытый:

 DaDataPullentiAbbyy InfoextractorDictumEurekaPromtRCOAOTAhunter.

Из открытого известен Томита-парсер и Deepmipt NER.

 Вычисление семантической близости слов и предложений

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке: https://habr.com/ru/articles/349864/.


Временная ссылка на поясняющий материал о BERT

Еще немного о BERT (ссылка на внешний ресурс)


Многофункциолнальная генеративная модель на основе ktrain

Модель вычисления фейковых новостных материалов Fake-News-Bert-Detect

Открыть (скачать) прикрепленные материалы:
Download this file (1_vectorization.docx)Векторизация в естеcтвенном языке[Из внешнего ресурса]36 kB
Download this file (2_tokenize.docx)Токенизация [Из внешнего ресурса]32 kB
Download this file (3_token_stemm_lemmat_NER.docx)Стемминг Лемматизация Токены[Из внешнего ресурса]27 kB
Download this file (AISP_1_2.zip)Естественный язык. Из истории развития.[Лекция 1]105 kB
Download this file (ApplDomain.docx)Перечень возможных предметных областей для систем общения[Лабораторная работа № 1]12 kB
Download this file (Attention_Is_All_You_Need.pdf)Attention Is All You Need[Англоязычная статья про концентрацию внимания в NLP]201 kB
Download this file (BertForQuestionAnswering.py)Простейший пример нейросетевой языковой модели на основе Bert[py -файл]7 kB
Download this file (Lab-AI-NLP.docx)Большие языковые модели и генеративный искусственный интеллект[Лабораторные работы (И.Ю.Каширин)]14 kB
Download this file (QuestAnswHabr1.docx)Вопросно-ответная Python программа на основе pipeline[Из Хабра. Вставить текст в .py файл.]12 kB
Download this file (QuestAnswHabr2.docx)Более сложная вопросно-ответная программа[Из Хабра. Вставить текст в .py файл.]20 kB
Download this file (Semantic similarity in NLP.zip)Различные методы семантического сходства предложений в NLP[Нужно распаковать]1580 kB
Download this file (Technology GPT.docx)Основы технологии GPT 4[Материалы разговора с GPT-4 и внешних ресурсов]25 kB
Download this file (The mechanism of attention in transformer models.docx)Механизм концентрации внимания в трансформерных моделях[Лекция]34 kB
Download this file (ToRSREU.zip)Python-программы вычисления семантического сходства и вопросно-ответные модели[(Отлажены и работоспособны на 12.05.2025)]32877 kB