Синтаксический анализ и
преобразование единиц измерения
в предложениях естественного
языка информационных ресурсов
Н.Г. Журавлева,
н. с.,
ИПУ РАН, г. Москва,
А.А. Мелихов,
ассист. каф. ИТС, megadelphin@gmail.com,
МИРЭА, г. Москва,
А.Н. Губин,
доц., к.и.н.,
МЮИ, г. Москва,
Г.Н. Гудов,
ст. преп., goodov4747@mail.ru,
РГГУ, г. Москва
Представлен интеграционный компонент преобразования
единиц измерения неоднородных информационных ресурсов, преимущественно
содержащих предложения из естественного языка. Предлагаемое программное
средство сравнивается с возможностями аналога, реализованного на программной
платформе «Microsoft Office»
с использованием технологии «SmartTag». Показаны
перспективы функциональной интеграции указанного решения.
The
study regards the integrative measure unit conversion component for
heterogeneous information resources, containing natural language sentences. The
proposed software is compared to its analog built upon the Microsoft Office
Smart Tag technology. The perspectives of functional integration are discussed.
Одной из ключевых основ формирования ресурсов современных
автоматизированных систем (АС) является
их информационное обеспечение. В составе неоднородных ресурсов как правило
присутствуют данные с различной степенью формализации, в числе которых текстовая
документация, аудио-, видео- и иные графические материалы,
в том числе представленные и в аналоговой форме и прочее. Отсутствие единообразия
по форме представления или же несвоевременность поддержания таковой является
серьёзной проблемой, затрудняющей дальнейшее развитие системы при её усложнении
с использованием перспективных технологий [1]. При этом проблемные вопросы возникают
практически во всех аспектах информационного обеспечения: наряду с отсутствием
единообразия по способам представления существенные затруднения могут возникать
из-за несовместимости различного рода форматов, несоответствия методов
формализации решаемым задачам и многое другое [2, 3]. Очевидно также и то, что как
таковая, АС никогда не будет полностью замкнутой, а существование различных подходов
к информационному обеспечению обосновано, в первую очередь, необходимостью её
взаимодействия с развитой средой функционирования.
Для текстовых данных исследуемая задача частично
разрешается путём внедрения жёстких требований к структуре документа,
однозначности применяемых формулировок и терминов и т.д. Однако это решение
более эффективно при проектировании новых АС, где обеспечение единообразия для
существующих систем требует значительных временных затрат на адаптацию
существующих документов под новые требования. При этом одной из подзадач
адаптации будет обеспечение единства системы применяемых в документации систем
измерений.
Настоящая задача актуальна
при распространении технической документации конечному потребителю, который, в
зависимости от принятых на территории его деятельности стандартов, может
использовать различные системы измерений (наиболее распространёнными из них
являются система СИ, и так называемая, «Имперская система мер»). В общем виде решение
задачи представляет собой поиск текстовых фрагментов, описывающих единицу измерения
и числовой коэффициент при ней, и перевод значений в требуемую систему.
Общепринятой практикой является решение данной задачи в процессе изучения
документации вручную, однако существующие программные средства позволяют
частично автоматизировать данные процесс.
Рассматриваемая технология «SmartTag»
программной платформы «Microsoft Office»
позволяет посредством интерактивных элементов создавать документы с заданным
поведением. Например, поле, содержащее в себе количество страниц в документе,
может автоматически обновляться по мере разрастания или уменьшения объёма документа.
Одним из наиболее востребованных алгоритмов, реализованных с помощью технологии
«SmartTag», в нашем случае является автоматическая
замена физических величин с перерасчётом их числовых коэффициентов в зависимости
от локализации системы, в которой в данный момент открыт текстовый документ.
Принцип работы технологии заключается во внедрении в документ машинно-читаемых
тегов, содержащих некоторую информацию о том, каким именно образом необходимо
осуществлять интерпретацию отображаемых пользователю данных.
Процесс создания «смарт-тегов» представляет собой
выделение пользователем вручную фрагментов текста и преобразованием их в теги,
при этом платформа «Microsoft Office»
позволяет частично автоматизировать поиск элементов, подлежащих преобразованию
в «смарт-теги» с помощью распознавания именованных сущностей («Named Entity Recognition»
или сокращённо – NER). Для тега задаётся тип, затем, в зависимости от указанного
типа пользователю предлагается посредством графического интерфейса пользователя
задать его поведение. Стоит отметить, что предлагаемые разработчиком варианты
конфигурации тегов покрывают большую часть пользовательских задач.
Основным недостатком указанной технологии является
необходимость предварительного тегирования NER. При этом задача автоматизации
разработчиками технологии «SmartTag» решена не в полном
объёме. Существующее решение может быть также существенно
улучшено и развито в своей функциональности следующим образом:
-
встраивание в различные существующие и перспективные системы;
-
автоматизированный поиска по неразмеченному
документу.
С целью устранения недостатков технологии при
решении заявленной задачи было разработано и реализовано новое программное
средство, которое далее по тексту будем упоминать как интеграционный компонент (ИК) [4].
Поиск именованных сущностей осуществляется
посредством извлечения из каждого предложения формализованного описания его
грамматико-семантической структуры в виде графа, в котором узлами являются отдельные
токены (слова предложения), а рёбрами –
грамматико-семантические отношения между ними. Таким образом, задача поиска и
локализации единиц измерения сводится к поиску по графу связей, определяющих
связь единицы измерения и её числового коэффициента. Извлечённые данные записываются
в перестановочную таблицу – структуру данных, состоящую из записей определенного
вида, описывающего взаимосвязь единиц измерения и их отношение, при этом
недостающие поля не заполняются.
По завершении этапа извлечения сущностей
производится дополнение таблицы перестановок вновь рассчитанными коэффициентами
с новыми единицами измерения. При этом база знаний содержит дополнительные
сведения о связи единиц измерения внутри своей системы, т.е. имеется возможность
преобразования единицы не по прямому соответствию, а по порядку коэффициента,
что будет продемонстрировано далее.
Синтаксический
анализ. Синтаксический
анализ реализован с помощью стороннего компонента – лингвистического программного
обеспечения с открытыми исходными текстами «Stanford NLP»,
разработанного в университете Стэнфорда. Данный программный продукт
представляет собой набор программных библиотек, реализующих различные функции от простой токенизации
до генерации дерева синтаксического разбора предложения. Для
интеграции со сторонними приложениями особую пользу в контексте решаемой задачи
представляет возможность извлечения грамматических отношений между конкретными токенами и запись в определённые общеупотребимые (открытие)
форматы файлов.
Например, для словосочетания «large
house» связь между существительным и прилагательным
будет выражена с помощью функции amod(house, large), где amod – модификатор, определяющий в английском языке вопрос
«какой?», задаваемый от существительного к прилагательному. Стоит отметить,
что, в отличие от генерации дерева разбора, для библиотек подобного типа данная
функциональность не является обязательной, и, в данном случае, является
отличительной особенностью библиотеки Stanford. Согласно документации производителя,
анализатор определяет порядка пятидесяти типов отношений, при этом 4 из них
могут указывать на наличие в предложении элементов, подлежащих локализации:
· связывающие числовое значение с
существительным;
· связывающие элементы
составных числительных;
· связывающее элементы составного имени
существительного;
· связывающие между собой
элементы составной единицы измерения.
Результаты работы данного
алгоритма сохраняются в таблицу перестановки для дальнейшей обработки.
База знаний. Поскольку поиск и
извлечение величин производится с помощью алгоритма, не требующего для своей
работы дополнительных параметров, базу данных можно существенно упростить.
Однако практический опыт показывает, что прямой перевод величин не всегда
оправдан, поскольку не все физические величины воспринимаются одинаково
(например, результат в «2300 килограммов» целесообразно преобразовать в «2.3 тонны»).
Для простого перестановочного алгоритма, на котором основана технология «SmartTag», учёт контекста возможен только за счёт
увеличения числа правил, поэтому предлагается применение специализированной
базы знаний, формализованной в виде онтологии и содержащей машинно-читаемое
описание классификации физических величин и алгоритма, производящего выбор единицы
измерения в зависимости от порядка полученного в
результате перерасчёта коэффициента.
В общем виде иерархию классов онтологии,
соответствующую правилам дескрипционной логики, можно
представить следующим образом: базовым классом для всех без исключения классов
является «Thing». Его потомками являются классы «SI»
и «non-SI», которые, в свою очередь, разделены на подклассы
вида «length», «weight» и
т.д. Каждая конкретная единица измерения является экземпляром соответствующего
класса и описывается фреймом вида:
- name;
-
short_name;
-
upper_measure_multipler;
-
lower_measure_multiplier;
- associated_measure_multiplier;
- associated_measure;
- lower_measure;
- upper_measure.
Обозначенные курсивом слоты описывают значение,
задаваемые литералом (например, для элемента «ounce»
параметр short_name будет задан выражением «oz^^string»), а обозначенные жирным шрифтом являются ссылками на другие экземпляры (значение associated_measure для элемента «ounce»
будет ссылаться на элемент «gram»).
Таким образом, алгоритм
должен выполнять следующие действия:
§ связывающие числовое значение с
существительным;
§ поиск отношений указанных
ранее видов в дереве разбора предложения, выявление составных числительных и
содержащих более одного слова обозначений единиц измерения;
§ определение единицы
измерения в требуемой системе и перерасчёт числовых коэффициентов. Генерация
таблицы перестановок;
§ внесение изменений в
оригинальный текст согласно таблице перестановки.
Необходимость в таблице
перестановки появляется, когда необходимо сохранить оригинальное форматирование
исходного документа, на основе которого создан текстовый документ,
предназначенный для синтаксического анализа. В таком случае, общий алгоритм
можно несколько упростить, исключив из него этап подстановки и передав его
стороннему программному средству.
Сравнение реализации на основе технологии «SmartTag»
с ИК (приведенное в таблице) проводится по трём группам признаков: форма
распространения, которая определяет возможность интеграции с существующими и
перспективными программными решениями; описание двух базовых алгоритмов,
лежащих в основе технологий, а также определяющие способ конфигурирования
входные и выходные данные.
Таблица: Возможности
сопоставляемых программных средств
|
Программное
средство на основе технологии «SmartTag» |
Разработанный
интеграционный компонент |
Форма распространения |
||
Вид |
Встраиваемый модуль |
Отдельное приложение с возможностью встраивания |
Поддерживаемая платформа |
Microsoft Office |
Приложение для Linux с
возможностью кросс-платформенной
компиляции |
Базовые алгоритмы |
||
Поиск сущностей |
NER с возможностью корректировки
работы вручную |
Автоматический синтаксический разбор предложения |
Алгоритм перестановки |
С использованием регулярных выражений |
С использованием базы знаний |
Входные и выходные данные |
||
Конфигурация |
Один текстовый файл в формате CSV |
База знаний (RDF: XML) + алгоритм на скриптовом языке программирования |
Результат работы |
Изменение данных в открытом документе |
Позиционная таблица перестановки |
Таким образом, разработанный ИК позволяет решать
задачу преобразования данных единиц измерения. В качестве основного
преимущества ИК по сравнению с технологией «SmartTag» можно выделить
возможность интеграции с другими, в том числе и перспективными программными
продуктами. В условиях быстрой смены приоритетных технологий такая «вариативность»
крайне важна, поскольку позволяет реализовывать необходимые функции без привязки
к конкретным особенностям функционирования расширенного набора прикладных задач
[5-13].
Как уже было указано во вводной части работы, преобладающий
объем информации, которая циркулирует в контуре различного рода автоматизированных
систем обеспечения сложных динамических объектов, является формализованным и
перерабатывается по заданным алгоритмам. Это позволяет формально определять
семантические взаимосвязи между информационными массивами. Однако
наряду с формализованной информацией в базах данных и знаний автоматизированных
систем действительно содержится и неформализованная, в частности, вербальная
информация – справочные и нормативные документы, графические материалы, аудио-
и видеоданные и т.д., которые могут храниться на носителях различной природы, в
том числе и неэлектронных, которые не перерабатываются по заданным алгоритмам,
но семантически взаимосвязаны между собой. Современные
методы и модели исследуемого ряда систем не лишены недостатков, в числе которых
следует обратить особое внимание на такие последовательности запросов к
информационным ресурсам, где их разнесение во времени настолько существенно,
что некоторая последовательность запросов к информационным ресурсам может быть
разнесена по времени настолько, что значения критичных информационных ресурсов
успевают измениться. В предлагаемых моделях это ограничение предлагается
рассматривать в контексте формализма нечетких
ситуационных сетей [14, 15].
В рамках настоящего исследования была изучена задача
сопоставления физических величин из различных систем измерения и разработано оригинальное
программное средство – интеграционный компонент [16, 17].
Следует отметить, что сфера применения данного интеграционного
компонента предполагает значительное расширение в указанных инженерных
приложениях согласно пристатейному списку работ. В
основе программного средства лежит пополняемая база знаний, организованная с
помощью онтологий. При этом основным достоинством данной модели представления
знаний является её потенциальной универсальности и гибкость при необходимости добавления
сведений и о других произвольных системах единиц измерений [5-11].
Разработанный в рамках настоящего исследования
интегративный компонент подлежит реализации в составе различного рода информационных
систем, при этом присутствует возможность его дальнейшего развития [2, 14, 18].
1.
Рожнов А.В., Лобанов И.А., Бимаков Е.В.
Обоснование задач системной интеграции и информационно-аналитическое
моделирование проблемно-ориентированных систем управления на предпроектном этапе жизненного цикла // XII Всероссийское со-вещание по проблемам управления ВСПУ-2014. ИПУ РАН. 2014.
С. 7474-7479.
2.
Рожнов А.В., Кублик Е.И. и др. Системная
интеграция направлений научной деятельности в условиях формирования предынтеллектуальной инфраструктуры // Информационно-измерительные
и управляющие системы. 2014. № 11. С. 59-63.
3.
Барышев П.Ф., Рожнов А.В., Губин А.Н., Лобанов И.А.
Обоснование информационно-аналитической системы в развитии методов и моделей
согласования иерархических решений // Динамика сложных систем — XXI век. 2014.
№ 3. С. 43-52.
4.
Мелихов А.А., Лобанов И.А., Рожнов А.В. Интеграционный компонент
локализации единиц измерения в англоязычных текстах: Свидетельство о
государственной регистрации программы для ЭВМ № 2015614244 РФ; Зарег. 10.04.2015.
5.
Фадеев Г.Н., Ермолаева В.И., Николаев И.В., Николаев А.Л., Мелихов А.А. Механизм
акустического воздействия на модели биохимических систем // Вестник МГТУ им.
Н.Э. Баумана. 2007. № 3. С. 83-88.
6.
Абросимов В.К., Гончаренко В.И. Агентные
технологии мониторинга районов чрезвычайных ситуаций
аппаратов // Технологии техносферной
безопасности. 2015, № 3 (61).
7.
Гончаренко В.И., Лэ Луо, Прус М.Ю. Мониторинг
распространения лесных пожаров группировкой беспилотных летательных аппаратов
// Технологии техносферной безопасности. 2015, № 4
(62).
8.
Затуливетер Ю.С., Семенов С.С., Николашин Ю.Л.,
Мирошников В.И., Будко П.А. Общий подход к
формированию единого информационно-управляющего пространства морской
компоненты…// Морская радиоэлектроника. 2015. № 1 (51). С. 22-28.
9.
Будко П.А., Литвинов А.И. Бесконтактный контроль и
идентификация технического состояния электрооборудования
систем электроснабжения промышленных комплексов // Датчики и системы.
2014. № 8 (183). С. 5-10.
10. Винограденко А.М., Будко
П.А., Юров А.С., Литвинов А.И. Способ мониторинга предаварийного состояния
контролируемых объектов // Датчики и системы. 2014. № 9 (184). С. 8-14.
11. Легович Ю.С., Максимов Д.Ю.
Логические модели выбора решения в самоорганизующихся системах // Проблемы
управления. 2013. № 3. С. 18-26.
12. Белавкин П.А., Федосеев С.А.,
Рожнов А.В., Лобанов И.А. Исследование стратегической мобильности проблемно-ориентированных
систем управления и их позиционирование в условиях развития информационного пространства
// Известия ЮФУ. Технические науки. 2013. № 3 (140). С. 211-217.
13. Лобанов И.А., Рожнов А.В.
Оценивание эффективности проблемно-ориентированной системы управления на ранних
стадиях жизненного цикла комплекса ЛА с использованием модели FDH //
Фундаментальные проблемы системной безопасности. ЕГУ. 2014. С. 377-379.
14. Рожнов А.В., Лобанов И.А.
Интеграция и управление контентом проблемно-ориентированной системы на ранней
стадии жизненного цикла / Труды 13-й Международной конференции «Системы
проектирования технологической подготовки производства и управления этапами
жизненного цикла промышленного продукта» (CAD/CAM/PDM-2013). М.: ИПУ РАН, 2013.
С. 320-322
15. Антиох Г.М., Рожнов А.В.
Исследование задач интегрированной системы моделирования и анализа эффективности
среды функционирования в развитии идеи JWarS / Труды
14-й Международной конференции «Системы проектирования, технологической
подготовки производства и управления этапами жизненного цикла промышленного продукта»
(CAD/CAM/PDM-2014). М.: ООО "Аналитик", 2014. С. 101-103.
16. Мелихов А.А., Мальшаков В.Д. Использование онтологий в распределённых
системах документооборота // Современные информационные технологии в управлении
и образовании: Сб. научных трудов. Ч. 3. - М., 2012.
17. Мелихов А. А. Решение
задачи поиска и замены физических величин в неформатированном тексте // Современные
информационные технологии в управлении и образовании: Сб. научных трудов. Ч. 1.
- М., 2014.
18. Журавлева Н.Г., Князев В.В.,
Гудов Г.Н. Совершенствование модели обработки информационных ресурсов с нечеткими
семантическими связями как нечеткой ситуационной сети // Международная
конференция «Системы проектирования технологической подготовки производства и
управления этапами жизненного цикла промышленного продукта» (CAD/CAM/PDM-2015):
Тезисы докладов. - М.: ИПУ РАН, 2015.