05.06.2020 22:09

Библиотеку будущего будет курировать искусственный интеллект

В июле 1848 года французский еженедельник L'illustration напечатал первую фотографию к газетной статье. На ней были изображены парижские баррикады, установленные во время июньского восстания.

Почти два столетия спустя фотожурналистика "одарила" библиотеки огромным количеством материалов со снимками. И без нового подхода к их сортировке библиотекари-люди в скором времени могут просто не успеть их классифицировать и раскладывать по полкам. Вот почему в Библиотеке Конгресса (Вашингтон) проходит эксперимент, в рамках которого искусственный интеллект помогает распознавать и классифицировать архивы газет.

Более 860 000 страниц в сутки: скорость поражает

Бен Ли, куратор проекта и специалист по инновациям, руководит внедрением системы под названием "Газетный Навигатор". Отличием новой системы от существующих (например, "Chronicling America") является самообучение — программа накапливает массивы данных и со временем улучшает качество своей работы.

Для начала работы Ли задействовал волонтеров, которые загрузили в систему начальные данные и описали их, чтобы программа "поняла" суть работы. И такой подход принес плоды: всего за 19 дней "Газетный Навигатор" сумел обработать и классифицировать все газетные страницы, которые были в библиотеке — 16 358 041 штуку. При этом как "проблемные" (вызвавшие неточности при сканировании) программа отметила всего 383 страницы.

Как работает и каковы перспективы

"Газетный Навигатор" основан на той же технологии, которую инженеры использовали для создания "Google Книг". В основе технологии оптическое распознавание, или OCR, которое позволяет качественно определять отпечатанные и рукописные символы даже со скан-копий. Благодаря этому упростился и поиск: достаточно задать слово или предложение, и система найдет все материалы, в которых есть искомые данные.

Также Ли улучшил технологию, создав модель обнаружения объектов, которая могла бы выделить семь различных типов контента:

фотографии,
иллюстрации,
карты,
комиксы,
редакционные мультфильмы,
заголовки
и рекламные объявления.

"На самом деле мы надеемся, что технология пригодится всем, у кого есть архивы газет, журналов или чего-то подобного. Каждый сможет собрать свою базу — естественно, в нужном масштабе.

Да, система не идеальна — есть некоторые ошибки в классификации, например, алгоритм может спутать кадр из мультфильма с фотографией. Мы надеется, что наш проект привлечет в том числе опытных программистов и специалистов по ИИ и машинному обучению, которые помогут его развить", — рассказывает Ли.

Фото: sciencetechniz.com

Автор Евгений Стриж

Евгений Стриж — журналист, внештатный корреспондент Правды.Ру

Обсудить

Вот, что нужно высаживать в междурядьях картофеля в огороде

Картофель - одна из самых популярных культур в мире. Однако, как и любое другое растение, картофель нуждается в уходе и защите от вредителей. Один из способов обеспечить здоровый рост и урожай картофеля - это высаживание дополнительных растений в междурядьях.

Один из способов защиты картофеля от вредителей

Назван крупнейший покупатель российских нефтепродуктов

Россия нашла новый рынок сбыта: кто стал крупнейшим покупателем российских нефтепродуктов

Возвращение легенды: удешевлённый Toyota Land Cruiser 200 снова в игре под новым именем Nord Demir

Ваш двигатель в опасности? Знаки, что вы залили фальшивое моторное масло