10 знаковых автомобилей из франшизы фильма «Трансформеры»
May 21, 202310 знаковых автомобилей из франшизы фильма «Трансформеры»
Sep 10, 202312 самых забавных моментов садовника Уилли в истории Симпсонов
May 20, 20231 МГц, 2 платы, 4 бита и самодельный процессор
Jul 02, 2023Новости индустрии 3D-печати: Carbon, Nexa3D, Essentium, Renishaw, 3D Systems и другие
Mar 17, 2023Как Национальная библиотека Швеции использовала искусственный интеллект для раскрытия многовековых языковых данных
От рукописей эпохи викингов до радиопередач 1970-х годов — ИИ помогает оцифровать более 18 миллионов предметов, имеющих ключевое значение для истории Швеции.
Национальная библиотека Швеции (Kungliga biblioteket) отвечает за сбор и сохранение печатных и электронных исторических материалов страны, а также делает их доступными для общественности и исследователей.
Чего на самом деле даст приостановка разработки ИИ?
Его коллекции насчитывают более 18 миллионов предметов, включая книги, газеты, журналы, карты, фотографии и аудиозаписи, и насчитывают более тысячи лет.
Чтобы сделать эти коллекции более доступными для исследователей и представителей общественности, они задействовали мощный потенциал искусственного интеллекта (ИИ) в рамках более широкой стратегии модернизации.
Хотя ИИ часто обсуждается в более дальновидной перспективе, многие организации используют ИИ, чтобы лучше понять наше прошлое, в том числе Национальная библиотека Швеции. Коллекции библиотеки обширны, разнообразны и постоянно пополняются. Одной из самых больших проблем было управление огромным объемом хранимого материала.
«Самые старые рукописи, которые у нас есть, относятся примерно к эпохе викингов», — говорит Лав Бёрджесон, директор KBLab, лаборатории данных библиотеки Кунглига. «У нас также есть очень большие коллекции исландского языка и очень большие коллекции латинского языка».
Ежегодно в библиотеку поступают миллионы новых экземпляров, и за ней было трудно успевать. Еще одна проблема заключалась в том, чтобы сделать его коллекции более доступными для исследователей, поскольку из-за огромной глубины хранящихся материалов их исследование было затруднено.
Бёресон возглавляет KBLab с 2019 года, а с 2021 года является руководителем отдела данных и инфраструктуры AI Швеции для прикладных языковых технологий. Он работает с крупномасштабными моделями ИИ в средах высокопроизводительных вычислений (HPC) и имеет образование в области вычислительных социальных наук в Стэмфорд.
Автоматизация задач, связанных с управлением коллекциями, таких как каталогизация, пополнение и сохранение, была приоритетом. Библиотека также надеялась улучшить доступность этих коллекций. Приняв искусственный интеллект, библиотека также столкнулась с необходимостью идти в ногу с последними исследованиями и разработками в этой области и обеспечивать использование новейших инструментов и методов, чтобы оставаться впереди.
В библиотеке начался процесс модернизации, который включал внедрение многоуровневой вычислительной инфраструктуры. Сюда вошли новые ноутбуки, рабочие станции, серверы и суперкомпьютеры.
Национальная библиотека Швеции занимается оцифровкой газет, начиная с 17 века, а также радио- и телепередач с 1979 года и электронных обязательных экземпляров с 2005 года.
Компания также работала над оцифровкой языковых данных на протяжении столетий, начиная с модели трансформатора в 2019 году, но быстро осознала, что для этого нужна более мощная система.
Они установили две системы Nvidia DGX, приобретенные у шведского поставщика AddPro, для локальной разработки ИИ в 2020 и 2021 годах, что подготовит их к еще более масштабным запускам на суперкомпьютерах на базе графических процессоров в ЕС.
Библиотека использует Nvidia NeMo Megatron, фреймворк PyTorch для обучения больших языковых моделей (LLM), а также инструменты искусственного интеллекта для транскрибирования аудио в текст. Исследователи могут использовать эти платформы для поиска конкретных радиопередач.
Историки, археологи, музыканты и ученые, работающие с данными, используют ИИ, чтобы заново представить исторические моменты. Как и во многих историях об эволюции современных вычислений, успех ИИ основан на ценностях сотрудничества, возможностей и экспериментирования.
Читать далее
Команда также разрабатывает модели генерации текста и надеется использовать ИИ для обработки видео и создания автоматических описаний. Библиотека также сотрудничает с Гетеборгским университетом в разработке последующих приложений для лингвистических исследований с использованием моделей лаборатории.
Одним из наиболее значительных достижений библиотеки является система на основе искусственного интеллекта под названием «Модели шведского языка» (SweLL), которая была развернута для решения проблемы оцифровки и раскрытия многовековых языковых данных. SweLL использует алгоритмы машинного обучения для анализа шведских текстов, изучения языковых моделей и синтаксиса, а также расшифровки рукописных документов в цифровой текст. Система также исправляет орфографические ошибки, автоматически размечает и классифицирует тексты по темам, периодам времени и авторам.