Kashirin.net

Естественно-языковые модели. Материалы

Простейший вводный материал об NLP

Извлечение именованных сущностей – это выделение из предложений на естественном языке:

-      топонимов ( географических названий и мест, посещаемых людьми);

  -   имен (ФИО);

-      дат событий и времени;

-      денежных сумм;

-      наименований предприятий;

-      других устойчивых наименований.

Эта задача хорошо изучена, для английского языка существует множество коммерческих и открытых решений:

 SpacyStanford NEROpenNLPNLTKMITIEGoogle Natural Language, APIParallelDotsAylienRosetteTextRazor.

Для русского языка тоже есть хороший инструментарий, но в основном закрытый:

 DaDataPullentiAbbyy InfoextractorDictumEurekaPromtRCOAOTAhunter.

Из открытого известен Томита-парсер и Deepmipt NER.

 Вычисление семантической близости слов и предложений

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке: https://habr.com/ru/articles/349864/.


Временная ссылка на поясняющий материал о BERT

Еще немного о BERT (ссылка на внешний ресурс)


Многофункциолнальная генеративная модель на основе ktrain

Модель вычисления фейковых новостных материалов Fake-News-Bert-Detect

Go to top