Текст в формате pdf что это
Перейти к содержимому

Текст в формате pdf что это

  • автор:

Текст в формате pdf что это

3.2. Формат PDF

Формат PDF (Portable Document Format) – переносимый формат документов, разработанный компанией Adobe Systems, используется как основа для создания электронных изданий в среде программного пакета Adobe Acrobat . Формат PDF – это файловый текстовой формат, используемый для представления публикаций или других документов на любой аппаратной платформе и для любой операционной среды. PDF-файл содержит PDF публикацию и специальные данные.

PDF публикация (документ) содержит одну или более страниц. Каждая страница может содержать любые компоненты электронного издания: текст, графику и иллюстрации, анимацию и видео и аудио информацию в аппаратно-независимом формате, в виде, так называемого, страничного описания (page description). PDF- публикация может также содержать информацию, обеспечивающую навигацию в гипертекстовой электронной публикации.

Кроме того, публикация содержит версию спецификации PDF, использованную в конкретном файле, и информацию о расположении структуры файла.

Формат PDF представляет текст и графику, используя модель формирования изображений языка программирования полос PostScript. Графическими объектами могут быть тексты и формы публикаций, векторные и растровые изображения и т.д. Графические объекты могут быть любого цвета.

Операторы создания страниц PDF подобны операторам языка PostScript. Главное отличие состоит в том, что PDF – не программный язык, и не содержит процедур, переменных и т.п.

Характерными особенностями PDF -файла являются:

— PDF файл может содержать объекты подобные гипертекстовым ссылкам, доступные только при интерактивном просмотре;

— для упрощения процесса описания страниц PDF не использует конструкции программных языков;

— PDF создает определенную структуру файла, которая позволяет программным приложениям иметь доступ к любой части документа;

— PDF файл содержит информацию о размерах шрифта и т.п.

— PDF файл не может быть прямо преобразован в PostScript – публикацию для печати.

PDF файл строится на основе либо 7 битного ASCII файла, либо на базе бинарного файла. Если это ASCII файл, в нем используются только печатные символы 7 битного ASCII кода, пробел табуляция, возврат каретки и перевод строки. В случае бинарного файла могут быть использованы все символы 8 битного кода. Считается, что ASCII — код наиболее удобный для переноса вид кодировки.

Для уменьшения размера файла PDF использует различные методы сжатия изображений:

— JPEG – для полноцветных иллюстраций и изображений в градациях серой шкалы;

— CCITT – для черно-белых изображений;

— LZW – для компрессии декомпрессии текстового материала.

Все эти методы оперируют с двоичными данными, которые могут затем быть закодированы в коде ASCII. Для обеспечения независимости от шрифтов PDF файл содержит описание для каждого шрифта, использованного в публикации. Описание включает название, кегль (размер) и стиль шрифта. В режиме просмотра публикации, если шрифт, использованный в документе, доступен, то он используется. Если не доступен, то заменяется на подобный с тем же кеглем и другими характеристиками. Некоторые шрифты могут встраиваться в PDF — публикацию.

Для прямого поиска любой страницы файла PDF — файл содержит специальную таблицу ссылок. Таблица размещается в конце файла и способствует уменьшению времени поиска и вывода страницы в PDF – публикации, т.к. обеспечивает независимость времени поиска от общего количества страниц в документе.

Структура PDF формата представлена в виде схемы на рис. 4.

Рис. 4 Обобщенная структура формата PDF .

Объекты. Формат PDF поддерживает несколько основных типов объектов, например:

— bollean – логические (true, false) ;

— number – числовые (integer, real) ;

— string – последовательность символов в круглых скобках;

— array – последовательность PDF объектов различных типов;

— dictionary – таблицы, состоящие из двух элементов: ключа и значения (используются для соединения атрибутов сложных объектов, например, в PDF – публикациях с помощью этих объектов представляются страницы и шрифты);

— stream – в виде объекта типа stream представлены большие объемы данных, такие как изображения и описания страниц.

Кроме того, существует «нулевой» объект (ключевое слово – null).

Косвенные объекты могут быть помечены так, чтобы на них ссылались другие объекты. Это используется, например, для создания объекта, значение которого изначально не известно. Любой тип объекта может быть помечен как косвенный. Такой объект содержит идентификатор объекта, который сохраняется даже при изменении самого объекта.

Любой объект, использующийся как элемент массива или значение dictionary, может быть определен, либо как обычный объект, либо как косвенная ссылка. Косвенная ссылка – это ссылка на косвенный объект, содержащая номер косвенного объекта (идентификатор), и ключевое слово R.

Структура файла. Структуру файла формата PDF можно представить в виде схемы, приведенной на рис. 5. Эта структура обеспечивает быстрый доступ к любой части файла и содержит механизм для его изменения.

Рис. 5. Структура файла формата PDF

Обычный PDF файл содержит четыре раздела:

— заголовок ( header );

— «тело файла» ( body );

— таблицу перекрестных ссылок (cross-reference table);

trailer .

Заголовок. Первая строка PDF файла определяет номер спецификации PDF, которой придерживается данный файл (текущая – 1.2 %PDF-1.2).

«Тело файла». Содержит последовательность косвенных объектов, входящих в состав публикации. Объекты – это компоненты публикации, такие как: страницы, изображения, шрифты. Комментарии могут быть во всем PDF файле. Их синтаксис совпадает с синтаксисом комментариев в PostScript, начинаются с % и заканчиваются концом строки.

Таблица перекрестных ссылок. Таблица содержит информацию о каждом объекте в файле в виде одной строки описания места объекта в файле. PDF файл содержит таблицу, состоящую из одного или более разделов. Если нет изменений, или добавлений в файл, таблица состоит из одного раздела. В противном случае, в ее состав добавляется новый раздел.

Описание раздела таблицы, состоящего из подразделов. Каждый подраздел содержит данные для непрерывной области номеров объектов. Организация подразделов удобна для пошагового изменения, потому что допускает добавление нового раздела перекрестной ссылки, содержащей данные об объектах, которые были добавлены или удалены.

Каждый подраздел перекрестной ссылки начинается со строки заголовка, содержащей два числа: объектный номер в этом подразделе и номере данных в подразделе.

Есть два формата данных таблицы: для объектов, которые используются, в том числе, и для объектов, которые были удалены.

Для объекта, который используется в публикации, содержится байтовое смещение, определяющее количество байтов от начала файла к началу объекта, номер генерации объекта, и ключевое слово n: ::= n. Для объекта, который свободен, содержится объектный номер следующего свободного объекта, номер генерации, и ключевое слово f: ::= f.

Когда косвенный объект удаляется, его запись в таблице помечается как «свободная», и номер генерации объекта, увеличивается на единицу, чтобы открыть возможность использования объекта с таким номером.

Trailer позволяет программному приложению, при чтении PDF файла, быстро находить таблицу перекрестных ссылок и специальные объекты. Приложение должны читать PDF файл с конца. Последняя строка содержит маркер конца файла %%EOF. Две предшествующие строки содержат ключевое слово – startxref и байт смещения от начала файла к началу слова xref в последнем разделе таблицы ссылок в файле. T railer dictionary предшествует этой строке.

Атрибуты trailer показывают смещения от начала файла к месту расположения последнего после изменения раздела таблицы ссылок, каталог объектов для публикации (в виде dictionary), массив двух string-идентификаторов создания и изменения файла, информация для декодирования документов и т.п.

Пошаговая коррекция документа. Содержимое PDF файла может быть изменено без переписывания всего файла. Изменения могут быть внесены в конец файла, сохраняя первоначальное содержание файла. Когда файл модифицируется, добавляются: новые или измененные объекты, раздел таблицы ссылок и новый trailer. Удаленные объекты остаются неизменными в файле, но помечаются как удаленные в таблице ссылок.

Шифрование документа. Документы или публикации могут быть зашифрованы для защиты их содержимого от несанкционированного доступа. Доступ к защищенному содержимому документа контролируется специальным «механизмом», определенным в таблице dictionary шифрования – значение Encrypt ключа в dictionary trailer.

Защита данных в файле PDF состоит из двух шагов: вычисление ключа, который должен использоваться, чтобы закодировать данные, и шифрование данных. Ключ является строкой (string) из пяти байтов. Для шифрования используется RC4 – симметричный алгоритм, который может использоваться как для шифрования, так и для дешифрования. Алгоритм RC 4 не меняет длины данных.

PDF -публикация может быть описана как иерархия объектов, содержащихся в «теле» PDF файла. Структура PDF – публикации или документа представлена на рис. 6.

Рис. 6 Структура публикации в формате PDF .

Основными объектами в этой иерархии являются таблицы dictionary. Связи в иерархии представлены парами ключ — значение, в которых значение – косвенная ссылка на родительский или дочерний объект. Например, объект Catalog, который является «корнем» иерархического дерева, содержит «ключ страниц», и соответствующее ему значение – косвенная ссылка на объект корень «дерева» страниц (Pages tree).

Каждая страница документа включает ссылки к своим изображениям, миниатюрам и комментариям, которые появляются на странице. Trailer PDF файла, описанный выше, определяет место объекта Catalog, в виде значения корневого ключа (Root) в Trailer. Кроме того, trailer задает с помощью ключа Info место информационной таблице dictionary публикации, т.е. структуре, которая содержит общие сведения о документе.

Каталог (Catalog).

Catalog – объект типа dictionary, являющийся корневым узлом документа. Он содержит ссылки на «дерево» страниц в документе, ссылку на дерево объектов, представляющих схему документа (bookmarks, или outline), ссылки на статьи и список named destinations. Catalog показывает также, появляется ли схема публикации или миниатюры автоматически, когда документ просматривается (задается атрибутом типа имя со значениями: UseNone, UseOutlines, UseThumbs, FullScreen), и должна ли быть показана при открытии иная, чем первая страница. С помощью этого объекта атрибутом ViewerPreferences можно задать также параметры программы просмотра при открытии публикации.

Пример объекта Catalog:

Дерево страниц (Pages tree).

Доступ к страницам документа открывается через дерево узлов, названное – деревом страниц. Это дерево определяет порядок страниц в документе. Для оптимизации производительности программы просмотра, Acrobat Distiller и Acrobat PDF Writer конструируют сбалансированное дерево. Структура дерева позволяет приложению быстро открыть документ, содержащий тысячи страниц используя ограниченный объем памяти. Простейшая структура состоит из единственного узла страниц, который ссылается на все страничные объекты. Структура дерева страниц документа не связана с содержимым документа. В PDF файле книги, например, не гарантируется, что глава представлена одним узлов в дереве. Корень и все другие узлы дерева страниц являются объектами типа dictionary. Их основными атрибутами являются: имя p ages, список косвенных ссылок к непосредственным дочерним узлам, объект предок типа dictionary.

/Kids [4 0 R 10 0 R 24 0 R]

Объект «страницы» может содержать также дополнительные ключи, со значениями для объектов потомков. Такие значения называются наследованными. Например, документ может задавать объект MediaBox для всех страниц, определяя один такой объект в корневом объекте дерева, а каждая страница в документе может перегрузить MediaBox собственным, соответствующим этой странице объектом MediaBox.

Объекты страницы ( pages ).

Эти объекты являются объектами типа dictionary, ключи которого описывают текст, содержащийся на одной странице и изображения. Основные атрибуты: имя – Page, MediaBox Rectangle – определяет «настоящий размер» страницы, Crop box – размер для печати, Parent – объект, непосредственный предок страницы, Resources – типа dictionary (ресурсы, требующиеся этой странице), Contents – типа stream (определяет страничное описание посредством косвенной ссылки), Thumb – типа stream (содержит ссылку на миниатюру), Annots – типа array (содержит массив объектов, который определяет комментарии на страницу), B – array (если страница содержит части статей), H – boolean (true — страница скрыта во время показа документа) и т.п.

Пример иллюстрирует страницу с миниатюрой и двумя комментариями.

/MediaBox [0 612 792]

/Contents 14 0 R

/Annots [23 0 R 24 0 R]

Три ключа объекта Page: Dur (время показа), Hid (скрытие страницы), и Trans (описывает «эффект» при переходе к данной странице), содержат информацию, которая используется только в режиме «презентации» и игнорируются в противном случае.

Миниатюры (Thumbnail).

PDF документ может включать миниатюрные схемы страниц. Миниатюра задается значением ключа Thumb объекта страницы. Структура миниатюры подобна, за небольшими исключениями, структуре изображения (см. ниже).

Комментарии (Annotations).

Комментарии – это заметки или другие объекты, которые связаны со страницей, но описываются отдельно от дескриптора страницы. PDF поддерживает несколько видов комментариев: текстовые; гипертекстовые связи; видео и аудиоинформацию.

Если страница содержит комментарии, они сохраняются в массиве как значение Annots ключа объекта страница. Каждый комментарий – объект типа dictionary. Основными ключами комментария являются: Type, Subtype, Rect. Другие ключи, определяющие: цвет (С), заголовок (T), рамку (Border или BS) и т.п.… не являются обязательными.

Дерево закладокOutline tree (bookmarks tree).

Структура предоставляет пользователю возможность иметь доступ к различным видам публикации по имени. Активация outline entry (называемые также bookmark (закладки)) «переносит» на новый вид, заданный в так называемом «описании места назначения» (destination description) для bookmark. Закладки часто образуют иерархическую структуру. Если документ включает закладки, они доступны по ключу Outlines в Catalog-объекте. Значение этого ключа – корень дерева закладок. Закладка верхнего уровня содержит связный список. В процессе просмотра закладки появляются в той последовательности, в которой они входят в данный список. Основные атрибуты этого объекта типа dictionary: Count (общее количество открытых закладок), First (ссылка на закладку-начало списка), Last (ссылка на конец списка).

Атрибуты закладки : Title – название , Dest типа array или name – место назначения (Destination), A – действие , выполняющиеся при активации закладки , Parent – ссылка на закладку верхнего уровня иерархии , Prev – ссылка на предыдущую закладку , Next – ссылка на следующую закладку .

/Dest [3 0 R /Top 0 792 0]

Место назначения (Destinations) .

Комментарии и закладки могут определять место назначения, которое состоит из страницы, места на странице, и масштаба показа страницы. Назначение может быть представлено явно как массив или посредством имени. В первом случае значениями ключа Dest являются непосредственно данные о странице – Page, Top, Bottom, Left, Right, Zoom, в различных комбинациях задающие страницу и показанный «прямоугольник» на ней. Поименованные места назначения (тип string или name) часто применяются, когда закладка ссылается на другой файл. Catalog документа может содержать ключ Names со значениями, каждое из которых представляет собой дерево, подобное дереву страниц. Листья – содержат пары из strings и косвенных объектов, которые и являются destinations.

Дерево имен ( Name tree ).

Дерево имен похоже на дерево страниц, но «листья» содержат пары string (имен) и объектов. Такое дерево применяется для организации поименованных мест назначения. Оно состоит из узлов трех видов: корень, промежуточное, листья. Корень содержит атрибут Kids – массив и Limits – массив. Лист содержит Limits и массив Names (форма массива name value name value …, где value – косвенная ссылка на объект). Имена в дереве сохраняются только в листьях.

Информационный объект типа dictionary (Info dictionary).

Как упоминалось выше, trailer документа может содержать ссылки на Info dictionary, который содержит информацию о публикации. Значения строковых атрибутов этого объекта представляют собой информационное окно о документе в Acrobat. В качестве атрибутовиспользуются : Author, CreationDate, ModDate, Creator, Title, Subject, Keywords.

Статьи (article threads) .

Публикация может включать несколько статей (article thread), каждая из которых, в свою очередь, может содержать несколько фрагментов – bead. Статьи (threads) сохраняются в массиве как значение ключа Threads в Catalog-объекте. Каждая статья и ее фрагменты представляют собой объекты-dictionary. Атрибуты статьи: F (определяет первый фрагмент), I (содержит информацию о статье, подобен Info dictionary). К атрибутам фрагмента относят: T (ссылка на статью), V (ссылка на предыдущий фрагмент), N (следующий фрагмент), P (страница, на которой размещается фрагмент), R (прямоугольник положения фрагмента на странице).

Формы (Acrobat Forms) .

Формы в Acrobat состоят из полей. Основные свойства полей: тип, имя, значение. Свойства формы PDF документа сохраняются в AcroForm dictionary, на который ссылается ключ объекта Catalog – AcroForm. Его атрибут Fields (array) – массив, состоящий из ссылок на корневые поля. Свойства полей могут располагаться непосредственно в dictionary поля, либо наследоваться, так как поля могут иметь иерархическую структуру. Атрибут поля: FT (name) определяет тип поля. Названия типов полей в формате: Btn – кнопка; Tx – текст; Ch – поле; V – значение, его формат зависит от типа поля, то есть от первого атрибута; DV – значение поля по умолчанию; Ft – набор различных характеристик поля (Read Only, Required и т.п.); Kids, Parents – атрибуты, определяющие иерархические отношения между полями. Kids организован в виде массива, каждый элемент которого является соответствующей ссылкой. Формы Acrobat используют комментарии для представления полей и управления действиями пользователя. Эти комментарии имеют подтип Widget. Для оптимизации атрибуты поля объединяются в один dictionary с атрибутами Widget. Поле, поэтому, может быть комментарием, на который ссылается Annots – ключ к какой–либо страницы.

Текстовые и поля выбора могут содержать «переменный» текст, то есть, текст, сохраненный в атрибутах поля, и появляющийся при выводе поля на экран. Следующие атрибуты, определяют появление такого текста. Атрибут DR – ресурсы (Resources dictionary). Как минимум он должен содержать ресурс типа шрифт. Атрибут DA характеризует свойства текста, появляющегося по умолчанию. String – содержит последовательность операторов, определяющих свойства текста: цвет, кегль (размер) и т.д.… Атрибут Q задает режим выравнивания.

Аудиоинформация.

Звук представлен как stream объект, который состоит из объектов типа dictionary. Его атрибуты являются: R (скорость воспроизведения), C (количество звуковых каналов), B (количество bit на канал), Е (формат звука), CO (тип сжатия звука, этот атрибут может быть пропущен). Многоканальные несжатые звуковые фрагменты сохраняются в формате чередования (в порядке 1,2), для двухканального стереозвука (1 – левый канал, 2 – правый). Для проигрывания звука из другого файла, атрибут F должен содержать имя звукового файла.

Спецификация файла (File specification).

Этот тип объекта определяет место расположения файла на диске. Не зависит от операционной системы. Стандартный формат для простой спецификации файла делит строку на компоненты символом (/). Этот символ, используется как общий разделитель, который заменяется соответствующим разделителем при создании системно-зависимого имени файла. Известны спецификации файла для различных платформ

Другой вид описания спецификации файла – в виде directory (полная спецификация). Directory содержит ключ, определяющий платформу F, или ключ FS (file system). Три ключа определяют имена файлов для соответствующих платформ: Mac, Dos, Unix.

Шрифт представлен в PDF формате как объект типа dictionary, определяющий тип, имя, кодировку, и другую информацию.

PDF определяет следующие типы шрифтов.

1. Type 1. К его атрибутам относят:

Base Font – имя в языке описания полос PostScript , определяющее базовый шрифт;

Firstсhar, LastChar – определяет код первого и последнего символа в массиве Widths;

Widths – массивширины (LastChar – FirstChar + 1);

Encoding (dictionary) – определяет кодировку символов ( впротивном случае используется кодировка по умолчанию : MacRomanEncoding, MacExpert Encoding, WinAnsiEncoding);

FontDescriptor – определяет размеры и ширину символа.

2. Type 3 – известен также как пользовательский шрифт и имеет следующие атрибуты:

CharProcs – ключ — имя символа, значение которого связано с ключом в stream объекте, который прорисовывает шрифт;

FontBox – прямоугольник, ограничивающий область символа (знакоместо);

Resources – список поименованных ресурсов для прорисовки шрифта.

Известны также шрифты: TrueType, Type 0, CIDFont Type 0, CIDFont Type 2.

Любой шрифт включает атрибут – Name . Большинство шрифтов определяют также ширину символов в шрифте (смещение между началом текущего символа и следующего символа).

Внешние объекты – External Objects (XObjects).

XObjects – поименованные ресурсы. PDF поддерживает три типа таких объектов: Images, Forms и PostScript language fragments. Images – Xobject, которые используют подтип Image. Цветные изображения могут иметь один компонент цвета (значение индексированного цвета), три компоненты (RGB, CalRGB, или Lab), или четыре базовых цвета аддитивной цветовой модели CMYK. Image XObject это объект stream. Stream dictionary должен включать все стандартные ключи потоков, а также несколько дополнительных: Name (имя ресурса), Width, Height (ширина и высота изображения), BitsPerComponent(количество бит на каждый цвет), Interpolate (сглаживание) и др.…

Form XObjects – это описание любого текста, графики или простых изображений, которые могут многократно воспроизводиться на различных страницах или в разных местах одной страницы. Также представлено в виде stream. Специфические атрибуты: Bbox (Rectangle) – определяет границы формы, Resources – список ресурсов, таких как текст или изображения, требующиеся для этой формы, XUID – уникальный идентификатор позволяющий кэшировать форму для прорисовки ее в другом месте.

В PDF страничное описание является последовательностью графических объектов. Эти объекты создают маркеры «marks», которые прилагаются к текущей странице.

Существует 4 типа таких объектов:

path object – произвольные кривые (контуры), включает операторы, определяющие наличие заливки, сглаживания и т.д.…;

text object содержит одну или более текстовых строк, которые могут быть размещены в любом месте страницы;

image object состоит из набора изображений.

External Objects ( XObject ) – объекты, определенные вне потока.

Страничное описание PDF не обязательно «замкнуто». Оно часто ссылается на ресурсы, такие как: шрифт, заливка, форма или изображение, не находящиеся на данной странице, а располагающиеся в другом месте файла.

Графическое состояние (Graphics state). Визуализация графического объекта определяется такими параметрами, как: толщина линии, шрифт и другими. Они являются частью graphics state. Хотя содержание graphics state подобно таким же состояниям в PostScript, есть некоторые отличия: В PDF graphics state разделено на четыре группы параметров: для текста, цвета, для основных операций маркировки, и собственно для графики. Graphics state расширено для разграничения параметров заливки и штриховки.

Special Graphics State содержит параметры, которые применяются ко всем типам графических объектов. PDF обеспечивает создание graphics state stack для сохранения и восстановления состояний (оператор q).

К Special Graphics State параметрам относятся:

Clipping path – ограничивает регион, в котором может быть применена закраска;

Current point – все рисование на странице осуществляется с помощью этого параметра (По аналогии с рисованием на бумаги, такой параметр можно назвать «местом расположения» пера, использующегося для рисования).

Special Graphics State operators: q – сохранение текущего состояния в стеке состояний, Q – восстановление графического состояния из стека, concat – модифицирует CTM (Current Transformations Matrix).

Перечислим некоторые из многочисленных General Graphics state в PDF.

Flatness – устанавливает максимальное разрешенное расстояние между точной кривой и ее приближением с помощью сегментов-линий (оператор setflat устанавливает данный параметр);

Line cap style – стиль конца линии;

Line dash pattern – стиль линии (штриховка и ее параметры);

Line join style – стиль соединения линий;

Line width – ширина линии;

Halftone – параметр полутонов.

Контуры (Path).

Используются для представления линий, кривых и областей. Сегментами могут быть прямые линии или кривые (кривые Безье). Операторы: MoveTo, LineTo – добавляет линию к контуру, CurveTo – добавляет кривую к контуру, closepath – «закрывает» контур и добавляет линию из текущей точки к началу контура, fill – заполняет контур и др.

Состояние текста (Text state).

Включает те графические параметры, которые влияют только на текст:

T c – расстояние между символами (смещение между началом одного и другого символа);

T w – расстояние между «началами» слов;

T h – ширина символов (в процентах от нормальной);

T l – вертикальное расстояние между смежными строками текста;

T fs – размер шрифта;

T f – шрифт.

PDF text object состоит из операторов, которые определяют символьные строки, перемещения текущей точки, и «текстовые состояния».

Text string operators – эти операторы прорисовывают текст на странице. Хотя можно передавать индивидуальные символы текстовым операторам, поиск текста выполняется значительно лучше, если текст группируется по параграфам. Основные операторы: Tj show – выводит текстовую строку, используя параметры из texts state . TJ – выводит текст со смещениями.

Формат PDF используется как основа представления данных при создании электронных изданий с помощью технологий Adobe Systems в среде программного пакета Adobe Acrobat .

Что такое формат PDF

календарь

star star star star star4.5 Оценок: 60 (Ваша: )

Главная Блог Создание PDF документов

У вас есть файл ПДФ, который вы хотите открыть и изменить? Такие документы могут содержать текст, графические элементы, гиперссылки. Формат часто используют для хранения руководств, официальной документации, электронных книг, брошюр и прочего. Для создания и открытия расширения вам потребуется специальная программа. Это может быть любое приложение для работы с ПДФ или онлайн-сервис. В этой статье мы расскажем, что такое формат PDF.

Программы для работы с ПДФ

ПДФ формат — это специальный тип файла электронных документов. Его можно открыть на любой ОС. У него есть свои преимущества и недостатки. Из минусов можно отметить:

  • Невозможность редактировать текст существующего файла.
  • Необходимость вставлять фото в высоком разрешении для качественного отображения.

Расширение ПДФ — что это? Оно происходит от английского Portable Document Format и было создано компанией Adobe. Изначально его можно было открыть только с помощью приложений от того же разработчика, но теперь существуют более удобные программы и онлайн-сервисы. Самые популярные просмотрщики и редакторы:

PDF Commander

PDF Commander — эффективное программное обеспечение для открытия, редактирования и конвертации ПДФ. С его помощью вы с легкостью сможете создавать документы с нуля: размещать картинки, текст, подписи и штампы для официальных документов.

Преимущества программы:

чем открыть pdf файл

  • Возможность совместного доступа.
  • Конвертация PDF в другие форматы: JPEG, PNG, TIFF, Word и другие.
  • Опция объединения нескольких документов в один.
  • Установка пароля на открытие и изменение файла.
  • Подпись и заполнение форм.
  • Поддержка всех версий Windows.
  • Русскоязычный интерфейс.
  • Установка пароля на открытие и изменение файла.

Adobe Acrobat Reader DC

Бесплатная программа для открытия PDF на различных языках, в том числе на русском. С ее помощью вы сможете совместно просматривать и комментировать материал, настраивать отображение страниц для комфортного чтения и заполнять формы.

Акробат Ридер не содержит функций для изменения документа. Для редактирования медиафайла необходимо приобрести премиум-версию софта Adobe Acrobat Pro. Она позволит конвертировать документы в другие расширения, настраивать текст и формат страниц, оформлять PDF с нуля и устанавливать пароли.

Недостатком редактора Acrobat Pro является высокая стоимость подписки: 1159 рублей в месяц.

Адоб Акробат Ридер

Онлайн-сервис

Вы можете воспользоваться веб-ресурсами для коррекции и просмотра ПДФ файлов. Чаще всего они бесплатны и предлагают только несколько базовых функций. Также у них существует ограничение по объему файлов и нет возможности работать без интернет-соединения.

Вы можете использовать сервис iLovePDF. Он позволит добавить текст, фигуры и комментарии в уже существующий файл. Также с его помощью можно сжать, соединить и разделить медиаконтент, преобразовать его в другие форматы.

У сайта есть ограничения по количеству загружаемых документов и их объему. Чтобы снять лимит, необходимо приобрести премиум-аккаунт за 350 рублей в месяц.

iLovePDF

Как редактировать ПДФ файлы

Вы можете редактировать документы в нескольких приложениях. Например, в программе PDF Commander. Она содержит инструменты для оформления файлов с нуля, для коррекции уже имеющихся файлов и извлечения картинок при необходимости.

Как сделать ПДФ файл? Для создания проекта с нуля, можно использовать чистый лист и разместить на нем штампы, текстовый слой, картинки с компьютера, электронные подписи.

оформление пдф-файла

Также можно собрать ПДФ из картинок и соединить несколько файлов разных медиаформатов: JPEG, PNG, GIF, BMP, EMF и другие. Настройте последовательность страниц и их размер.

объединение пдф

При редактировании уже существующего файла вам доступны функции: добавление текста и картинок, удаление и создание страниц, кадрирование листов, создание нумерации.

редактирование пдф

Для коррекции ПДФ также можно использовать веб-сервис. Сайт iLovePDF позволит добавить надпись и снимок, разместить рисунок и фигуру.

Конвертация файлов в формат PDF

Перевести файлы в ПДФ можно в онлайн-сервисах или в редакторе PDF Commander. Первые преобразуют фото JPG, текст Word, презентацию PowerPoint, таблицу Excel и HTML.

Софт поддерживает все популярные форматы. Вы можете конвертировать PNG в PDF, а также перевести JPEG, GIF, BMP, TIFF, EMF. Для этого необходимо выбрать подходящее действие в стартовом меню и загрузить медиафайл. Экспортировать ПДФ можно в тех же форматах и в виде текста. Можно вывести отдельные страницы, извлечь картинки и разбить материал по листам.

конвертация пдф

Как защитить PDF-файл

Иногда может потребоваться настроить параметры безопасности материала. Например, у личных документов или конфиденциальной информации. Для защиты данных вы можете использовать специальные функции приложения PDF Commander:

защита данных

  • установка пароля на открытие и изменение файла;
  • возможность замазать текст;
  • изменение метаданных: автора, создателя, издателя, темы и ключевых слов.

Онлайн-сервисы, например, iLovePDF также позволят создать водяной знак, подписать и разблокировать защищенный паролем документ.

Заключение

Теперь вы знаете, чем открыть PDF-файл и как его редактировать. Для этого можно использовать программы и веб-ресурсы. Самый оптимальный вариант — редактор PDF Commander. Он позволит не только открыть документы, но и добавить текстовый слой, картинки, подписи и штампы. Вы сможете оформлять материал с нуля, корректировать и кадрировать страницы, конвертировать ПДФ в другие форматы и объединять контент в один документ. Скачать приложение можно бесплатно и сразу же использовать для просмотра и редактирования PDF!

Обзор формата Adobe PDF

Формат переносимых документов (PDF) представляет собой универсальный файловый формат, который позволяет сохранить шрифты, изображения и сам макет исходного документа независимо от того, на какой из множества платформ и в каком из множества приложений такой документ создавался. Формат Adobe PDF считается признанным общемировым стандартом в области тиражирования и обмена надежно защищенными электронными документами и бланками. Файлы Adobe PDF имеют небольшой размер, и они самодостаточны; они допускают совместную работу, просмотр и печать с помощью бесплатной программы Adobe Reader®.

Отлично себя оправдывает использование формата Adobe PDF в издательском и печатном деле. Благодаря способности Adobe PDF сохранять совмещенный (композитный) макет, можно создавать компактные и надежные файлы, которые сотрудники типографии могут просматривать, редактировать, сортировать и получать с них пробные оттиски. Также в предусмотренный техпроцессом момент в типографии могут как непосредственно отправить файл на фотонаборное устройство, так и продолжить его завершающую обработку: осуществить предпечатные проверки, провести треппинг, спустить полосы или выполнить цветоделение.

Сохраняя документ в формате PDF, можно создать файл, соответствующий стандарту PDF/X. Формат PDF/X (формат обмена переносимыми документами) является разновидностью Adobe PDF, которая не допускает использования многих вариантов и сочетаний данных о цветности, шрифтов и треппинга, которые могут вызвать осложнения при печати. Документ PDF/X следует создавать в случае, когда PDF-файлы используются как цифровые оригиналы при допечатной подготовке изданий — как на этапе создания макета, так и для целей фотовывода (если программное обеспечение и выводящие устройства способны работать с форматом PDF/X).

Формат PDF может помочь при следующих затруднениях, обычно возникающих в работе с электронными документами.

Чем полезен Adobe PDF

Присланный файл невозможно открыть, поскольку у получателя отсутствует приложение, в котором он был создан.

Где бы пользователь ни находился, он всегда сможет открыть документ PDF. Для этого достаточно иметь бесплатную программу Adobe Reader.

В архиве, который содержит электронные и бумажные документы, сложно найти нужный документ, а сам архив занимает немало места и требует наличия приложения, в котором документ был создан.

Документы PDF компактны и удобны для поиска; для их чтения достаточно иметь приложение Reader. Наличие ссылок облегчает навигацию внутри документа PDF.

Документы отображаются в карманных устройствах с искажениями.

Расстановка тегов позволяет перекомпоновать текст документа PDF специально для возможности открывать такие файлы на мобильных платформах, таких, как Palm OS®, Symbian™ или Pocket PC®.

Документы со сложным форматированием недоступны людям с плохим зрением.

Документы PDF с гипертекстовой разметкой содержат сведения о информационном наполнении и структуре, благодаря чему они отлично обрабатываются программами и устройствами для чтения с экрана.

Встраивание и подстановка шрифтов

InCopy встраивает шрифт только в том случае, если он содержит заданный поставщиком параметр, разрешающий встраивание. Встраивание предотвращает подстановку шрифта при просмотре или печати файла, благодаря чему читатель видит текст, набранный исходной гарнитурой. Увеличение файла вследствие встраивания шрифтов незначительно, если в документе не используются CID-шрифты (с многобайтовыми идентификаторами символов), обычно применяемые для азиатских языков, в которых один глиф создается на основе нескольких символов.

Для каждого шрифта InCopy может встроить шрифт целиком или только его подмножество — конкретные символы, называемые глифами, которые использованы в этом файле. Сокращение знакового состава, при котором формируется уникальное имя шрифта, позволяет при печати использовать первоначальный шрифт и его метрику. Встраивание подмножества шрифта влияет на размер файла и на возможность последующего редактирования файла.

Если InCopy не может встроить шрифт, вместо него временно подставляется одна из гарнитур Multiple Master — AdobeSerMM для отсутствующего шрифта с засечками либо AdobeSanMM для шрифта без засечек.

Эти гарнитуры шрифта допускают растяжение или сжатие, что позволяет сохранить разбиение на строки и разрыв страницы исходного документа. При подстановке не всегда удается воспроизвести форму с исходными буквами, особенно если программа сталкивается с нестандартной, например рукописной, гарнитурой шрифта.

Сведения о сжатии

При экспорте в формат Adobe PDF приложение InCopy автоматически снижает разрешение изображений, обрезает изображения по их рамке и сжимает текст и векторную графику при помощи алгоритма сжатия без потерь ZIP. Этот алгоритм хорошо подходит для изображений с большими одноцветными областями или повторяющимся узором, а также для черно-белых изображений с повторяющимся узором. Поскольку InCopy использует алгоритм сжатия без потерь ZIP, при уменьшении размера файла данные не удаляются, поэтому качество изображения не затрагивается.

Связанные материалы

Что такое PDF и как его сделать?

Формат переносимых документов (PDF) представляет собой универсальный файловый формат, который позволяет сохранить шрифты, изображения и сам макет исходного документа независимо от того, на какой из множества платформ и в каком из множества приложений такой документ создавался. Формат Adobe PDF считается признанным общемировым стандартом в области тиражирования и обмена надежно защищенными электронными документами и бланками. Файлы Adobe PDF имеют небольшой размер, и они самодостаточны; они допускают совместную работу, просмотр и печать с помощью бесплатной программы Adobe Reader®.

Отлично себя оправдывает использование формата Adobe PDF в издательском и печатном деле. Благодаря способности Adobe PDF сохранить совмещенный (композитный) макет, можно создавать компактные и надежные файлы, которые сотрудники типографии могут просматривать, редактировать, сортировать и получать с них пробные оттиски. Также в предусмотренный техпроцессом момент в типографии могут как непосредственно отправить файл на фотонаборное устройство, так и продолжить его завершающую обработку: осуществить предпечатные проверки, провести треппинг, спустить полосы или выполнить цветоделение.

Сохраняя документ в формате PDF, можно создать файл, соответствующий стандарту PDF/X. Формат PDF/X (формат обмена переносимыми документами) является разновидностью Adobe PDF, которая не допускает использования многих вариантов и сочетаний данных о цветности, шрифтов и треппинга, которые могут вызвать осложнения при печати. Документ PDF/X следует создавать в случае, когда PDF-файлы используются как цифровые оригиналы при допечатной подготовке изданий — как на этапе создания макета, так и для целей фотовывода (если программное обеспечение и выводящие устройства способны работать с форматом PDF/X).

О стандартах PDF/X. Стандарты PDF/X утверждены Международной организацией по стандартизации (ISO). Они применяются к обмену графическими данными. При преобразовании PDF-файл проверяется на соответствие заданному стандарту. Если PDF-документ не соответствует выбранному стандарту ISO, отображается сообщение, позволяющее выбрать между отменой преобразования и продолжением преобразования, при котором будет создан несоответствующий стандартам файл. Самое широкое распространение в издательском и печатном деле получили несколько разновидностей PDF/X: PDF/X-1a, PDF/X-3 и PDF/X-4.

Формат PDF/X-1a (2001 и 2003).

PDF/X−1a — это стандартный формат файлов, специально предназначенный для обмена готовыми к печати документами в виде электронных данных, при котором отправителю и получателю не требуется дополнительной договоренности для обработки информации и получения требуемых результатов в тираже. Фактически он является цифровым эквивалентом цветоделенных фотоформ.

Формат PDF/X-1a гарантирует, что:

  • все шрифты встроены
  • изображения встроены
  • определены параметры MediaBox и TrimBox или ArtBox
  • цвета представлены в формате CMYK, в формате смесевых цветов или в обоих форматах сразу
  • назначение вывода задано посредством описания условий печати или указания ICC профиля.

Примечание: назначение вывода определяет тип печатного процесса, к которому готовится файл, например, тип печатной машины, используемые краски и бумага.

PDF-файлы, соответствующие стандарту PDF/X-1a, могут быть открыты в Acrobat 4.0 и Acrobat Reader 4.0, а также в их более поздних версиях.

Набор PDF/X-1a предусматривает использование формата PDF 1.3, снижение разрешения цветных изображений и изображений в градациях серого до 300 ppi, а монохромных — до 1200 ppi, встраивание всех шрифтов в виде подмножеств символов, отсутствие встроенных цветовых профилей, а также сводит прозрачные области в соответствии с параметром «Высокое разрешение».

При использовании PDF/X−1a совместимых файлов вам больше не придется волноваться, что вас могут попросить предоставить недостающие шрифты или изображения. Вам больше никогда не придется сталкиваться с преобразованием изображения из RGB в CMYK без предварительного просмотра результатов. Решения о том, должен ли при печати файлов использоваться треппинг, будут приниматься на основании надежной информации. И, наконец, в типографии будут знать, что файл правильно подготовлен для печатной машины, на которой он будет печататься.

Размеры (page boxes) в PDF

MediaBox, CropBox, BleedBox, TrimBox и ArtBox — что это такое? Тот кто хотя бы раз сталкивался с форматом PDF более плотно, наверняка сталкивался с этими определениями. В то же время, как показал опыт, мало кто знает что это и зачем это нужно.

Формат PDF удобен тем что точно передаёт в одном файле содержание и внешний вид документа, будь то просто текст или сложная комбинированная (векторная и растровая) графика. Среди прочих параметров, в нём хранится и размер документа (страницы). Однако этот размер не так однозначен, как может показаться на первый взгляд, поскольку существует до 5. различных вариантов описания этого размера. Эти варианты описания называются page boxes. Переводом «page box» на русский, с максимальным сохранением смысла в контексте допечатной подготовки, будет что-то вроде граница страницы, область документа, граница документа и т.п.

MediaBox — используется для определения ширины и высоты страницы. Media box определяет размер материала (например, бумаги) на котором производится печать, media box это самый большой бокс документа, остальные боксы могут быть такими же или меньше, но ни в коем случае не могут быть больше чем media box.

CropBox — видимая область страницы в Acrobat’е, которая содержит в себе какую-либо информацию. Crop box — прямоугольник минимального размера в который поместились бы все видимые объекты (текст, картинки, линии, номера страниц, колонтитулы и т.п.) документа. Размер crop box может быть таким же или меньше чем media box. Acrobat использует этот размер для отображения и печати документов. Иными словами, когда Вы открываете файл в Acrobat’е, то все, что вы видите в данный момент отображается в виде Crop box.

BleedBox — определяет размер документа вместе с вылетами. Вылеты — часть изображения которая обрезается после печати, нужна для того чтобы компенсировать погрешность процесса порезки. На рисунке до подрезки bleed box — 76х106 мм, а после подрезки в обрезной размер (TrimBox) — 70х100 мм.

TrimBox — определяет размер изделия (так называемый, обрезной размер). Это конечный размер после подрезки. TrimBox так же может сопровождаться метками реза (техническими элементами файла).

ArtBox — используется редко, определяет художественную часть изделия, важную его часть. Если говорить дословно — ту самую часть где по замыслу автора из изделия должен доноситься арт, креатив и т.п.

Как сделать PDF для печати?

Перед конвертацией в PDF все изображения должны быть переведены в CMYK. Если есть элементы, которые печатаются отдельными прогонами (пантоны), им должны быть назначены соответствующие цвета по палитрам Pantone Solid Coated/Uncoated. Цветовое пространство CMYK должно быть с профилем ISO Coated v2.

Если Ваш макет содержит прозрачности (или пантон с прозрачностью), которые невозможно доработать растрированием с фоном, то выберайте версию PDF не 1.3, а 1.5 — 1.6, чтобы прозрачности в растровых линках PSD/TIFF не бились и не создавали белых полос по периметру. Главное, чтобы прозрачности и эффекты не лежали поверх текста и векторных объектов.

Если используете PDF версий PDF 1.3, то знайте, что данная версия PDF не поддерживает использование эффектов прозрачности и смешения цветов (blending mode), поэтому при записи PDF 1.3 все эффекты преобразуются в простые объекты.

Corel Draw (на примере X6, английская версия)

Перед записью PDF убедитесь, что файл готов к печати — задан обрезной формат, заложены необходимые вылеты, изображения и векторные объекты не в RGB, качество изображений не ниже 300 dpi, шрифты переведены в кривые, эффекты доработаны. Подробней смотрите тут. Также проверьте установки управления цветом.

File > Publish to PDF > указать название файла только латинскими символами > PDF preset выбрать настройки Prepress > Settings > Закладка Color выбрать Native (если вы не делали допечатную подготовку) и убрать 2 галочки с оверпринтами (если вы специально их не закладывали) > Закладка Prepress поставить флажок на Bleed Limit и указать значение 5 мм > Нажать ОК и сохранить файл.

Adobe Illustator (на примере CS6, английская версия)

Перед записью PDF убедитесь, что файл готов к печати — задан обрезной формат, заложены необходимые вылеты, изображения и векторные объекты не в RGB, качество изображений не ниже 300 dpi, шрифты переведены в кривые, эффекты доработаны. Подробней смотрите тут. Также проверьте установки управления цветом.

File > Save As > указать название файла только латинскими символами. Сохранить > в поле Adobe PDF preset выбрать настройки PDF/X-4:2008 > в закладке Compression выбрать сжатие ZIP > в закладке Marks and Bleeds в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) > Save PDF

Adobe Photoshop (на примере CS5, английская версия)

Перед записью PDF убедитесь, что файл готов к печати — к обрезному формату добавлены вылеты, изображение не в RGB, качество изображения не ниже 300 dpi, все слои слиты. Подробней смотрите тут. Также проверьте установки управления цветом.

File > Save As > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Photoshop PDF. Сохранить > в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 > в закладке Compression выбрать сжатие ZIP > в закладке Output, в разделе Color Conversion: Convert to Destination, Destination — ISO Coated v2 > Save PDF

Adobe InDesign (на примере CC, английская версия)

Перед записью PDF убедитесь, что файл готов к печати — задан обрезной формат, заложены необходимые вылеты, изображения и векторные объекты не в RGB, качество изображений не ниже 300 dpi, внизу на панеле Preflight зеленый кружок с надписью No errors — это значит, что все пути к картинкам имеются, текстовые контейнеры не прячут текст и все шрифты программа видит. Подробней смотрите тут. Также проверьте установки управления цветом.

File > Export… > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Adobe PDF. Сохранить > в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 (PDF 1.6, если нужно сохранить прозрачности) > в закладке General, установить диапазон печати All, флажок Spreads должен быть снят > в закладке Marks and Bleeds, в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) > в закладке Output, в разделе Color, Color Conversion: No Color Conversion, Profile Inclusion Policy: Don’t Include Profile > Export

QuarkXPress (на примере 8.0, английская версия)
File > Export > Layout as PDF > указать название файла только латинскими символами. Options > в поле PDF Style выбрать пункт PDF/X-1a:2001 > в закладке Pages, флажок Spreads должен быть снят > в закладке Bleed: Bleed Type – Symmetric, Amount 5 мм > > Сохранить.

MS Office (на примере 2007).
Приложения MS Office не предназначены для подготовки файлов к высококачественной печати, поэтому даже конвертация макета в PDF не всегда избавляет от проблем. Гарантией того, что в готовом изделии Вы увидите то же, что и на мониторе, является только подписанная цветопроба. Минимизировать ошибки поможет сохранение документа в PDF. Сохранить как > Adobe PDF > Adobe PDF Conversion Options > поставить флажок на Make PDF/A-1а: 2005 compliant file > Ok > указать название файла только латинскими символами > Сохранить файл

  • Клиентам
  • Требования к макетам
  • Что такое PDF и как его сделать?

Требования к макетам

  • Цветоделение и баланс по серому
  • Печать на металлизированной бумаге
  • Основные ошибки
  • Цветопроба
  • Что проверяется в типографии при приеме файлов
  • Как подготовить файл к печати
  • Полезная информация
  • Что такое PDF и как его сделать?
  • Как передать нам файлы
  • Пожелания к макетам
  • Передача макетов и файлов через Интернет
  • Полезные файлы

Хочу обсудить заказ с менеджером
Заполните форму и наш менеджер быстро свяжется с вами и расскажет:

• о сроках и стоимость исполнения вашего заказа • об условиях оплаты и скидки • как правильно подготовить макет для печати или заказать дизайн у нас

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *