Publication: Применение методов автоматической обработки текстов для построения тезауруса предметной области на примере материалов по детской психологии
Дата
2022
Авторы
Башан, М. П.
Journal Title
Journal ISSN
Volume Title
Издатель
Аннотация
Выпускная квалификационная работа содержит 68 страниц, 17 рисунков, 8 таблицы, 15 источников. Перечень ключевых слов: онтология, информационно-поисковой тезаурус, методы автоматической обработки текстов, методика создания тезауруса предметной области. Потребность в создании информационно-поискового тезауруса предметной области встала тогда, когда специалисты, производящие поиск, столкнулись с проблемой неадекватного понимания лексики. Для их решения требовалось упорядочить лексику предметной области и создать специализированные словари. Одним из путей решения задач информационного поиска является создание семантических словарей, к которым относятся информационно-поисковые тезаурусы. Объектом исследования является создание информационно-поискового тезауруса. Предметом исследования является применение автоматической обработки текстов для создания информационно-поискового тезауруса. Целью исследования является разработка методики создания тезауруса предметной области с применением методов автоматической обработки текстов на примере материалов по детской психологии. Для достижения вышеприведенной цели необходимо выполнить следующие задачи: –Изучить подходы к формированию специализированных семантических словарей для предметных области; –Изучить возможности инструментария для автоматической обработки текстов; –Разработать методику для создания тезауруса предметной области –Реализовать методику, построив тезаурус предметной области «Детская психология». Практическая значимость исследования заключается в применимости разработанной методологии, которая позволяет применять методы автоматической обработки текстовых материалов, для создания информационно-поисковых тезаурусов. Методология и методы исследования, применяемые в ходе работы, следующие: анализ существующих подходов к формированию тезауруса предметной области, работа с csv-файлами, сформированными текстовым анализатором с применением методов автоматической обработки текстов, работа с базой данных общего тезауруса , составление тезауруса предметной области. СОДЕРЖАНИЕ РАБОТЫ Во введении обозначены актуальность и цель исследования. В первой главе приведены краткие теоретические сведения об онтологиях и тезаурусах предметных областей, методы выделения значимых словосочетаний для специализированных семантических словарей, а также проанализированы подходы к их созданию. Во второй главе приведено описание возможностей инструментария для автоматической обработки текстовых материалов, а также описание базы данных объединенного тезауруса. В третьей главе представлена методика построения тезауруса информационной области. В четвертой главе приведен процесс построения тезауруса выбранной предметной области в соответствии с разработанной методикой. В заключении обозначены основные итоги работы.
Описание
Уровень образования: бакалавриат; Код направления/специальности: 38.03.05; Группа: Б18-702
Ключевые слова
ВКР , Выпускная квалификационная работа
Цитирование
Башан, М. П. Применение методов автоматической обработки текстов для построения тезауруса предметной области на примере материалов по детской психологии : Выпускная квалификационная работа, бакалавриат, 38.03.05 / М. П. Башан ; рук. работы Голицына Ольга Леонидовна, 2022