О проекте:
Проектная группа:
Этапы разработки проекта:
Перед нами была поставлена нетривиальная задача: разработать сайт для издательства, в котором будет присутствовать возможность продавать электронные версии как журналов целиком, так и любых статей из них. Основной сложностью было то, что для решения этой задачи требовалось разработать программу - парсер из формата PDF, в котором предоставлялись журналы, в обычный HTML, и автоматически разбивать содержание номера на статьи.
Определение начала и конца определенной статьи в PDF-файле , как и разных элементов внутри самой статьи – весьма сложная задача, поскольку формат PDF не сохраняет никаких признаков деления текста на логические блоки, и содержит только координаты расположения каждой буквы или графического элемента на странице.
При реализации этого проекта мы двигались одновременно в двух направлениях:
Дизайн сайта
Выбирая стиль дизайна сайта для такой, в общем-то, скучной темы как бухгалтерские журналы, мы постарались сделать теплый и комфортный интерфейс, в котором пользователю будет легко добраться до нужных материалов.
Основную часть главной страницы занимает блок выбора журналов, в двух вариантах. Первый, это «карусель», которую листать вперед и назад:
Второй вариант, это список журналов. Быстрому поиску нужных изданий помогает фильтр по направлениям бухгалтерской деятельности:
Пользователь сайта имеет возможность подписаться на издание, купить определенный выпуск журнала или отдельную статью из этого номера:
Конвертация журналов из PDF
Для разработки парсера, конвертирующего статьи из PDF-формата, мы написали скрипт на языке Python, который, используя сложные настраивающиеся алгоритмы, определяет начало и конец статьи, ее заголовок, автора, сноски и подзаголовки. По собранным статьям скрипт создает содержание журнала.
В результате, при чтении журнала клиент может перемещаться между статьями как с помощью автоматически сгенерированного содержания номера, так и просто перелистывая страницы.
И, что самое главное, благодаря созданной нами программе – конвертатору PDF в тексты, клиенты сайта могут читать каждую отдельную статью в красивом сформатированном виде, разделеную на все элементы, которые присутствовали в PDF данного журнала.
Вот как видят статью после конвертации журнала из PDF видят пользователи, которые читают ее отдельно (в бесплатном варианте или после покупки). Статья полностью автоматически сформатирована для удобного чтения и распечатки.
В статье автоматически определены и выделены следующие элементы: Заголовок, подзаголовок, автор, выноска (выделенный блок), сноски в конце статьи, таблицы и списки.
Разработка программы по конвертации журналов из pdf заняла около полугода. В результате была создано программное обеспечение, которое позволяет в полностью автоматическом режиме конвертировать журналы или газеты из pdf и продавать их электронные версии целиком или по статьям, а также производить поиск и маркирование текста в содержании файлов. Программа может конвертировать по 200 файлов в сутки на сервере стандартной конфигурации, что обеспечивает производительность в 6000 выпусков журналов и газет в месяц.
Отзыв клиента
«Мы очень довольны сотрудничеством с компанией Аксиома. Ключевые понятия в работе этой команды: пунктуальность, целеустремленность и творчество.
Самое лучшее, что может сказать о результатах работы – рост показателей. С запуском сайта в новом дизайне и с новыми функциями, количество наших подписчиков увеличилось. Причем подписчиков именно на электронные версии изданий, что было одной из главных задач. А благодаря программному обеспечению для автоматической конвертации изданий, мы имеем возможность предлагать клиентам уникальный продукт – покупку отдельных статей вместо целого номера, и полнотекстовый поиск. Это повышает интерес пользователей, т.к. они получают экономическую выгоду и никакого лишнего для них контента. Мы продолжаем наше сотрудничество с компанией Аксиома и по другим веб-проектам компании.»
Татьяна Смищенко, руководитель интернет-проектов КГ Аюдар
Проведите конкурс среди участников CMS Magazine
Узнайте цены и сроки уже завтра. Это бесплатно и займет ≈5 минут.