Автор: jordansl
Дата: 24-11-09 02:53
Как да извадим текста от PDF документ?
При работа с документи от формата PDF често се налага бързо да извадим намиращата се в тях текстова информация. На пръв поглед това е много лесно, но на практика - не винаги.
При работа с документи от формата PDF често се налага бързо да извадим намиращата се в тях текстова информация. На пръв поглед това е много лесно – отваряме документа с Adobe Reader, маркираме текста, копираме го и го пастваме в Word. Това на теория, на практика при копиране на текста често възникват различни проблеми – от нарушаване на форматирането до промяна на шрифтовете. В такива случаи не остава нищо друго, освен да се използват различни други методи за измъкване на текста от PDF-а.
Първи начин – използване на пощенската услуга Gmail. Схемата е много проста – убеждаваме се, че размерът на PDF файла не надвишава 20 МВ и го изпращаме в собствения си Gmail акаунт. След като писмото пристигне, кликваме на View as HTML, за да разгледаме съдържанието на документа в хитертекстов формат. Това е всичко. При това пощенската услуга на Google се справя отлично със задачата за преобразуване на документи, поддържа кирилица и не иска пари.
Втори начин – използване на разработената от американската компания Snowtide Informatics онлайн услуга PDFTextOnline. Базирана на технологията AJAX, тя бързо се справя с PDF файлове директно в прозореца на браузъра. PDFTextOnline е безплатен инструмент, поддържащ обработката на кирилски шрифтове и не само на тях.
Трети начин – използване на специализирани продукти, например ABBYY PDF Transformer, Solid Converter PDF или PDF to Text Converter (платени). По правило комерсиалните програми имат широки възможности и добре се справят със своите задължения. Но за да не си хвърляте парите на вятъра, пробвайте тези програми предварително като си свалите техните ограничени във времето версии и след това си изберете тази, която ви харесва най-много.
Още един вариант – използване на алтернативни PDF редактори. Такива има много и повечето от тях са платени, а за тези които не искат да се занимават да търсят можем да препоръчаме Infix на английската компания Iceni Technology. Независимо от западния си произход, тя добре работи с кирилица и може да изважда текст от PDF както със запазване на форматирането, така и без него.
Разбира се, хората които не искат да харчат пари за подобно нещо, могат да рискуват да използват и различните безплатни програми за обработка на PDF. Тези програми също не са малко, но гаранция че ще се справят с кирилицата няма.
Връщайки се към онлайн продуктите можем да ви препоръчаме универсалната услуга за конвертиране Zamzar.com. Тя също умее да обработва PDF файлове и да ги преобразува в обикновен текст или Word документ.
И накрая, при наличие в компютъра на офисния пакет Microsoft Office 2007 версия Home and Student или Ultimate можете да се възползвате от услугите на програмата OneNote. Нейното предимство е, че тя може да разпознава в графичните файлове кирилски текст. Всичко, което трябва да направите е да преобразувате PDF документа в изображение, дори и като използвате клавиша PrtScr на клавиатурата и графичния редактор Paint, който съществува от памтивека в операционните системи Windows.
http://pcworld.bg/7576_kak_da_izvadim_teksta_ot_pdf_dokument
|
|