Conversão de PDF para Word

Até bem pouco tempo, a função do tradutor era traduzir. Podia receber os documentos em qualquer mídia ou formato, o resultado seria sempre laudas datilografadas com texto corrido. Isso ainda acontece com traduções juramentadas, mas em todos os outros casos o tradutor tem mais uma atribuição: a de “editorar” o documento, para devolvê-lo no mesmo formato que o recebeu. As ferramentas CAT, como o Wordfast, se propõem a fazer isso, desde que seja um formato reconhecido por elas. Mas nem tudo é tão simples. O maior problema é com arquivos PDF, formato cada vez mais usado no mundo moderno. Portanto, uma tarefa do tradutor é converter arquivos PDF em formato reconhecido pela sua ferramenta CAT.

O PDF (Portable Document Format) é um formato criado em 1993 pela Adobe que é reconhecido por quase todo sistema operacional. Ele pode ser produzido por digitalização de documentos (com scanner) ou pelo próprio computador, como saída alternativa à impressão. No primeiro caso o arquivo PDF é de fato uma imagem, não editável. Ele é muitas vezes chamado de “morto”. No segundo caso, é obviamente chamado de “vivo”, mas também de “editável”, porque ele pode ser editado, modificado, traduzido, etc.

O PDF “morto” só pode ser convertido em documento editável com alguma ferramenta de OCR (reconhecimento ótico de caracteres). Existem muitas ferramentas que fazem isso, as principais estão listadas abaixo. O grande problema aqui é o que o programa OCR vai entender como texto. O documento pode conter imagens, assinaturas, carimbos e, pior, texto sobre imagens. Nenhum programa é confiável ao ponto de poder diferenciar isso tudo. Portanto é necessário que seu programa OCR lhe dê a possibilidade de você destacar as partes que quer converter ou eliminar as indesejadas. Assim mesmo é bom ter em mente que nem tudo conseguirá ser convertido, e você terá um trabalhinho de ajuste depois da conversão. Outra coisa a ter em mente é que seu programa de conversão deve estar preparado para o idioma do documento. Vem incorporado nesses programas um dicionário para ajudar no reconhecimento, porque muitas vezes o texto não está muito legível e ele precisa “adivinhar” o que está escrito. Por exemplo, se no texto estiver escrito “mansão” e seu conversor estiver programado para inglês, ele considerá que a palavra está errada, e procurará no dicionário a mais próxima disso. Inversamente, se o conversor estiver programado para português e no texto estiver escrito algo como “anciâo” o conversor descobrirá, graças ao dicionário, que a palavra correta é “ancião” e a corrigirá.

Quanto aos PDFs “vivos”, como foram produzidos a partir de um documento eletrônico, a conversão é mais fácil, o software não precisa adivinhar onde está o texto e quais são os caracteres. Mas assim mesmo ele só consegue devolver para o mesmo formato do original. Como a maioria dos usuários quer o resultado em formato Word, o programa precisa então convertê-lo para DOC se o original era diferente, o que provoca algumas inconsistências. O maior problema, para os tradutores, é quando o documento original passou por uma diagramação para torná-lo visualmente mais estético. O diagramador, que nem por um segundo imagina que esse texto possa vir a ser traduzido, abusa de marcas de parágrafo (que truncam as frases, tornando-as sem sentido) e seções. Ou até mesmo enfia espaços entre os caracteres de um título para aumentar o espaçamento!

Softwares mais conhecidos:

Para PDFs mortos:

Abbyy FineReader – Pessoalmente, é o que mais me agrada. Simples, permite selecionar as partes do documento que quero converter. Existe em duas versões, a Professional (R$ 269) e a Brasil (R$ 169). Esta última permite o reconhecimento de documentos e imagens apenas em idiomas que usam o alfabeto latino.

Adobe Acrobat Pro – Se você tiver cacife, é uma ótima solução. Nunca testei, porque sei que não poderei comprá-lo (US$ 689). Desenvolvido por quem criou o padrão PDF.

Omnipage Standard – Outro ótimo programa (US$ 150).

Readiris - Também excelente (US$ 129)

Para PDFs vivos:

Solid PDF Tools – Embora tenha um OCR embutido, eu o uso apenas para PDFs vivos. É o melhor que eu conheço, a grande vantagem é que ele pode recriar o documento no seu formato original, como PPT ou Excel (R$ 209). Cuidado, existe uma versão mais barata, o Solid Converter PDF (R$ 167), mas converte apenas para Word.

Infix Pro – Esse software (US$ 159) é muito interessante: ele extrai todo o texto para o formato XML. Se você tiver uma ferramenta CAT que manuseia esse tipo de formato, você pode traduzi-lo e depois devolvê-lo ao Infix Pro que recriará o PDF. Mas lembre-se (e isso vale para os outros softwares também): quando você traduz do inglês para o português, o texto aumenta de 10 a 15% e portanto há grandes chances de o documento ficar bem desfigurado, exigindo um trabalhinho de editoração. E editoração em PDF é mais complicado do que em Word!

Serviços externos:

Existe a possibilidade de você mandar seu documento para um serviço on-line de conversão, alguns deles gratuitos, por exemplo o PDF to DOC. Procure no Google, você encontrará vários outros. Mas atenção: quando você recebe um documento para traduzir, você é o fiel depositário das informações que ele contém. E quando você envia um documento para um site na internet para ser traduzido, você se arrisca a que essas informações caiam em mãos erradas. É sempre bom consultar o contrato, mesmo em serviços gratuitos. Em todo caso, pode experimentar o do Wordfast Anywhere. Basta criar uma conta!

Se você tiver algum produto a recomendar, entre em contato comigo.

Dica: às vezes você recebe um PDF protegido por senha, que impedirá a conversão. Você pode comprar um software que descobre a senha (procure no Google por PDF password remover) mas existem duas maneiras mais simples. A primeira é óbvia, pedir ao seu cliente para que lhe mande a senha embora seja grande a probabilidade de ele nem saber do que se trata. Então, a segunda opção é imprimi-lo utilizando um driver gerador de PDF (quase todos os produtos acima já vêm com um, senão você acha vários na Internet, gratuitos). Esses drivers simulam uma impressora, só que em vez de imprimir, geram um arquivo PDF. E esse não será protegido!

Gostou desta dica? Use os botões abaixo e divulgue aos seus amigos. Quer ser avisado toda vez que eu publicar outra dica de Wordfast? Deixe seu e-mail no campo NÃO FIQUE POR FORA, à direita. Quer fazer um comentário, pedir algum conselho ou sugerir um artigo? Use o formulário abaixo. Quer compartilhar algumas dicas? Entre em contato comigo.

4 Comments ,

4 de respostas para “Conversão de PDF para Word”

  1. M. Celina A. Neves 12 de março de 2013 em 16:57 #

    Gostei muito de todas as informações. Excelente dica sobre PDFs com senha!!!

  2. Daniel Fernández 9 de julho de 2013 em 11:37 #

    Muito esclarecedor seu artigo. Porem, depois de seguir as dicas para converter um Arquivo PDF a DOC, vejo que o diagramação interfere na segmentação das unidades de tradução. E agora, traduzir do jeito que aparecem as unidades, que não respeitam a pontuação etc, ou ^editorar^ antes para limpar as marcas de diagramação???

  3. João Otávio 1 de novembro de 2014 em 15:01 #

    Muito bom o artigo. Estou com um problema, pois importei o arquivo para o wordfast em pdf e na hora de salvar o arquivo traduzido, o programa me informa um erro de alinhamento. Não sei como resolver isto.

    • Roger Chadel 1 de novembro de 2014 em 15:20 #

      Esta conversão de PDF para Word é feita automaticamente e, dependendo da complexidade do original, não dá bons resultados. Pode ser até que, no seu caso, o utilitário tenha tido problemas imprevistos. Sempre recomendo o uso de um programa conversor sobre o qual você tenha completo domínio, como o Abbyy Finereader.

Mande uma resposta