Knowledge Graph становится основой для Total Airport Management. Разбор, как связка LLM и Knowledge Engineering решает проблему данных и трассируемости.
Проблема проявляется не сразу — до момента, когда аэропорт начинает работать как набор изолированных систем. Операционные данные распределены между подразделениями, терминология не унифицирована, а процессы описаны в разрозненных документах. В таких условиях даже базовая синхронизация между участниками (пилоты, диспетчеры, наземные службы) становится источником ошибок. Критичность этой проблемы усиливается требованиями к data provenance — каждое решение должно быть проверяемым и привязанным к источнику. Именно здесь Knowledge Graph выступает как единый слой семантики, но его построение традиционно упирается в ручную работу и плохую масштабируемость.
Авторы предлагают компромиссную архитектуру: scaffolded symbolic fusion, где формальная онтология (Knowledge Engineering) ограничивает вероятностное поведение LLM. В основе — заранее заданная схема на базе NASA ATM ontology, которая определяет классы и связи. LLM используется не как автономный генератор, а как механизм извлечения триплетов (entity–relation–entity), строго привязанных к этой схеме. Для этого применяется LangExtract — библиотека, которая сочетает few-shot prompting с жесткой структурой вывода и обязательной привязкой к исходному тексту. Важная деталь — двойной механизм: вероятностная генерация + детерминированная проверка через строковое сопоставление (text.find, SequenceMatcher). Это устраняет типичную проблему LLM — “black box” без объяснимости.
Ключевой эксперимент касается context window. Проверяются два режима: сегментный (page-level) и полный документ (document-level). Ожидание индустрии — деградация качества на длинных контекстах из-за “lost-in-the-middle”. Но результаты показывают обратное. При обработке полного документа Precision достигает 0.967, Recall — 0.982, F1 — 0.975. Количество пропущенных связей (FN) снижается с 13 до 8. Причина — нелинейная природа процессов: в A-CDM зависимости часто разорваны по тексту, и только длинный контекст позволяет восстановить причинно-следственные цепочки. Сегментация, напротив, ломает эти связи. Это важный сигнал для систем с процессной логикой: локальная оптимизация внимания ухудшает глобальную целостность.
Отдельный слой — трассируемость. Каждый извлеченный триплет привязан к конкретному предложению источника. Все извлечения успешно проходят проверку на соответствие тексту. Это достигается за счет гибридного подхода: LLM генерирует кандидатов, но финальная фиксация происходит только при подтверждении строковым совпадением (exact или fuzzy). Интересно, что большинство ошибок (FP) возникает именно в fuzzy-сопоставлениях, что ожидаемо — чем дальше от буквального текста, тем выше риск галлюцинаций. Тем не менее, система сохраняет строгую проверяемость, что критично для safety-critical доменов.
Практическое применение выходит за пределы самого Knowledge Graph. Построенный граф автоматически преобразуется в swimlane diagrams, где каждый шаг процесса привязан к конкретному стейкхолдеру. Алгоритм использует модифицированный топологический обход (BFS) для восстановления порядка операций и распределяет их по “дорожкам” ответственности. Это решает типичную проблему: KG сам по себе машиночитаем, но плохо воспринимается людьми. Автоматическая генерация визуальных артефактов закрывает этот разрыв и делает данные пригодными для операционного анализа и обучения.
Для индустрии это выглядит как прагматичный путь интеграции LLM в строгие домены. Полностью автоматические системы без ограничений пока не дают нужной надежности. Но комбинация формальной онтологии, управляемых промптов и детерминированной валидации дает баланс между масштабируемостью и точностью. Отдельно стоит учитывать влияние длинного контекста: если процессы нелинейны, document-level inference может быть предпочтительнее, несмотря на стоимость.
Ограничения остаются. Архитектура требует начальной онтологии и curated примеров. Также не решена полностью задача извлечения знаний из мультимодальных источников — она обозначена как следующий шаг (видео, телеметрия). Но уже сейчас подход показывает, что Knowledge Graph может стать не просто хранилищем, а операционным слоем для TAM — при условии, что каждая связь объяснима и проверяема.
Новостной источник
arXiv — крупнейший открытый репозиторий препринтов (с 1991, под эгидой Cornell), где учёные оперативно выкладывают рабочие версии статей; материалы общедоступны, но не проходят полноценную рецензии, так что результаты следует считать предварительными и по возможности проверять в обновлённых версиях или в рецензируемых журналах. arxiv.org