математический спецкурс весеннего семестра 2017/2018-го года
Машинное обучение в автоматической обработке текстов

Лукашевич Н.В.

Пятница, 16:20,
ауд. 524

Спецкурс для студентов магистратуры. Первое занятие 2 марта.

В связи с доступностью в настоящее время большого количества электронных документов важным является умение обрабатывать большие объемы текстовых данных для извлечения знания о языке, предметной области, а также информации о конкретных сущностях. Такие знания включают извлечение синонимов, родовидных отношений и значений многозначных слов; именованных сущностей, их типов и отношений между ними; анализ тональности. Извлеченные знания могут использоваться для автоматизации составления разного рода компьютерных ресурсов, а также в информационно-аналитических системах.

Программа

  1. Введение, задачи автоматической обработки текстов, этапы обработки текстов, компьютерные лингвистические ресурсы, интеллектуальные системы обработки текстовой информации;
  2. Дистрибутивные семантические модели, извлечение семантического сходства слов на основе больших текстовых коллекций;
  3. Нейронные сети, дистрибутивное представление слов (word embedding);
  4. Подходы к извлечению таксономий (синонимов, родо-видовых отношений) на основе дистрибутивных представлений слов;
  5. Извлечение отношений на основе шаблонов, обобщений шаблонов и применений нейронных сетей;
  6. Извлечение именованных сущностей, фактов из текстов. Частичное обучение, обучение в открытой предметной области, distant supervision;
  7. Извлечение мнений из текстов. Анализ тональности. Извлечение оценочной лексики из текстов;
  8. Извлечение устойчивых словосочетаний, терминов, ключевых слов;
  9. Автоматический вывод значений многозначных слов.
Комментарии и отзывы
Web hosting by Somee.com