Простейший вводный материал об NLP
Извлечение именованных сущностей – это выделение из предложений на естественном языке:
- топонимов ( географических названий и мест, посещаемых людьми);
- имен (ФИО);
- дат событий и времени;
- денежных сумм;
- наименований предприятий;
- других устойчивых наименований.
Эта задача хорошо изучена, для английского языка существует множество коммерческих и открытых решений:
Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language, API, ParallelDots, Aylien, Rosette, TextRazor.
Для русского языка тоже есть хороший инструментарий, но в основном закрытый:
DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter.
Из открытого известен Томита-парсер и Deepmipt NER.
Вычисление семантической близости слов и предложений
Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке: https://habr.com/ru/articles/349864/.
Временная ссылка на поясняющий материал о BERT
Еще немного о BERT (ссылка на внешний ресурс)
Многофункциолнальная генеративная модель на основе ktrain
Модель вычисления фейковых новостных материалов Fake-News-Bert-Detect