banner
Дом / Новости / Как Национальная библиотека Швеции использовала искусственный интеллект для раскрытия многовековых языковых данных
Новости

Как Национальная библиотека Швеции использовала искусственный интеллект для раскрытия многовековых языковых данных

May 10, 2023May 10, 2023

От рукописей эпохи викингов до радиопередач 1970-х годов — ИИ помогает оцифровать более 18 миллионов предметов, имеющих ключевое значение для истории Швеции.

Национальная библиотека Швеции (Kungliga biblioteket) отвечает за сбор и сохранение печатных и электронных исторических материалов страны, а также делает их доступными для общественности и исследователей.

Чего на самом деле даст приостановка разработки ИИ?

Его коллекции насчитывают более 18 миллионов предметов, включая книги, газеты, журналы, карты, фотографии и аудиозаписи, и насчитывают более тысячи лет.

Чтобы сделать эти коллекции более доступными для исследователей и представителей общественности, они задействовали мощный потенциал искусственного интеллекта (ИИ) в рамках более широкой стратегии модернизации.

Хотя ИИ часто обсуждается в более дальновидной перспективе, многие организации используют ИИ, чтобы лучше понять наше прошлое, в том числе Национальная библиотека Швеции. Коллекции библиотеки обширны, разнообразны и постоянно пополняются. Одной из самых больших проблем было управление огромным объемом хранимого материала.

«Самые старые рукописи, которые у нас есть, относятся примерно к эпохе викингов», — говорит Лав Бёрджесон, директор KBLab, лаборатории данных библиотеки Кунглига. «У нас также есть очень большие коллекции исландского языка и очень большие коллекции латинского языка».

Ежегодно в библиотеку поступают миллионы новых экземпляров, и за ней было трудно успевать. Еще одна проблема заключалась в том, чтобы сделать его коллекции более доступными для исследователей, поскольку из-за огромной глубины хранящихся материалов их исследование было затруднено.

Бёресон возглавляет KBLab с 2019 года, а с 2021 года является руководителем отдела данных и инфраструктуры AI Швеции для прикладных языковых технологий. Он работает с крупномасштабными моделями ИИ в средах высокопроизводительных вычислений (HPC) и имеет образование в области вычислительных социальных наук в Стэмфорд.

Автоматизация задач, связанных с управлением коллекциями, таких как каталогизация, пополнение и сохранение, была приоритетом. Библиотека также надеялась улучшить доступность этих коллекций. Приняв искусственный интеллект, библиотека также столкнулась с необходимостью идти в ногу с последними исследованиями и разработками в этой области и обеспечивать использование новейших инструментов и методов, чтобы оставаться впереди.

В библиотеке начался процесс модернизации, который включал внедрение многоуровневой вычислительной инфраструктуры. Сюда вошли новые ноутбуки, рабочие станции, серверы и суперкомпьютеры.

Национальная библиотека Швеции занимается оцифровкой газет, начиная с 17 века, а также радио- и телепередач с 1979 года и электронных обязательных экземпляров с 2005 года.

Компания также работала над оцифровкой языковых данных на протяжении столетий, начиная с модели трансформатора в 2019 году, но быстро осознала, что для этого нужна более мощная система.

Они установили две системы Nvidia DGX, приобретенные у шведского поставщика AddPro, для локальной разработки ИИ в 2020 и 2021 годах, что подготовит их к еще более масштабным запускам на суперкомпьютерах на базе графических процессоров в ЕС.

Библиотека использует Nvidia NeMo Megatron, фреймворк PyTorch для обучения больших языковых моделей (LLM), а также инструменты искусственного интеллекта для транскрибирования аудио в текст. Исследователи могут использовать эти платформы для поиска конкретных радиопередач.

Историки, археологи, музыканты и ученые, работающие с данными, используют ИИ, чтобы заново представить исторические моменты. Как и во многих историях об эволюции современных вычислений, успех ИИ основан на ценностях сотрудничества, возможностей и экспериментирования.

Читать далее

Команда также разрабатывает модели генерации текста и надеется использовать ИИ для обработки видео и создания автоматических описаний. Библиотека также сотрудничает с Гетеборгским университетом в разработке последующих приложений для лингвистических исследований с использованием моделей лаборатории.

Одним из наиболее значительных достижений библиотеки является система на основе искусственного интеллекта под названием «Модели шведского языка» (SweLL), которая была развернута для решения проблемы оцифровки и раскрытия многовековых языковых данных. SweLL использует алгоритмы машинного обучения для анализа шведских текстов, изучения языковых моделей и синтаксиса, а также расшифровки рукописных документов в цифровой текст. Система также исправляет орфографические ошибки, автоматически размечает и классифицирует тексты по темам, периодам времени и авторам.