PDF到文本转换使用PHP和Drupal


pdf to text convert using php and drupal

我正在使用此代码将PDF转换为文本,它工作正常,但不支持瑞典字符,喜欢:

correect swedish word     = incorrect word    
Förnamn                   = Fšrnamn,
Försäljningsdatum         = FšrsŠljningsdatum,
varumärket                = varumŠrket,
terförsäljaruppgifter     = terfšrsŠljaruppgifter

代码是:

<?php
    require_once "pdf.pdf2text.inc";
    $filename = "customerfile.pdf";
    $pdf = new Pdf(urldecode($filename));
    print utf8_decode($pdf->getText());//with utf-8
    print $pdf->getText(); //without utf-8
?>

我添加了 UTF-8 编码/解码,但它不起作用。使用此代码

请任何人帮助我或建议我使用此代码显示正确的文本(单词(。

提前谢谢。

iconv();可能 http://php.net/manual/fr/function.utf8-decode.php

$myUnicodeString = "Åäö"; echo iconv("UTF-8", "ISO-8859-1", $myUnicodeString);正如一些评论所说UTF-8_decode();不足以处理口音。

根据Saubhagya对 Drupal.org 的评论:

在数组 $_pdfDocToUni 行 18 文件 initialize.pdf2text.inc 中添加所需字符的八进制和 Unicode 等效项(请记住,八进制需要像数组的其他条目一样为 3 位数字(。

然后只需转到pdf2text.module的第335行,并以与其他字符相同的格式添加您的字符。

https://www.drupal.org/node/1079780

不确定"只是"这个词的使用,但它可能会有所帮助......

这似乎是他正在谈论的模块,它确实有他提到的数组 - 也许您的版本可能缺少模块 - 似乎提供了很多模块

http://cgit.drupalcode.org/pdf2text/tree/pdf2text.module?id=a15059bc1531aa336fef255397ba362c81c9fce5