我正在从pdf文件中剥离数据,因此我将pdf转换为txt并从中获取数据。我在这样的字符串中得到主记录
CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2Y 4 4 #
当只有一个记录时,有时我在这样的单个字符串中得到多个记录,我用"#"字符计算出字符串中有多个记录
Invite 1 MA300C 3 2 0 . 0 450.0 DIGCL R 9 9 . 0 210.0 6 Y 4 4 #RSVP 1 OFF-90 A 1 3 2 0 . 0 450.0 DIGBH S 9 9 . 0 210.0 6 N 1 0 #Letter1 1 MA130C 3 2 0 . 0 450.0 DIGC L R 29 7 . 0 210.0 2 N 4 0 #Letter1 1 OFF-90 A 1 3 2 0 . 0 450.0 DIGBH S 29 7 . 0 210.0 2 N 1 0 #Envelopes 1 ENVDL E P F S 3 2 0 . 0 450.0 DIGBH S 13 0 . 0 225.0 1 N 1 0 #
在第一行实际字符串中应该像
CARDS 1 GA350C 320.0 450.0 DIGCLR 90.0 55.0 2 Y 4 4
这里Y代表Yes所以这个字符有时N代表No
我如何以我所展示的方式加入数字和字母?无论字符串长度如何
我使用了
$string = "CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2Y 4 4 #";
$newstring = preg_replace("/('d+)'s+(?='d+)/", "$1", $string);
但是运气不好,请问有人有解决办法吗?
我不会在一个preg_replace
中做这件事。
下面的代码将把所有奇怪格式的数字转换成新的格式,例如:
$string = "CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2 Y 4 4";
preg_match_all("/('d+'s)+'.'s?0/", $string, $matches);
$newNumbers = array_map(
function ($number) { return str_replace(' ', '', $number); },
$matches[0]
);
$newstring = str_replace($matches[0], $newNumbers, $string);
结果:
卡片1 GA350C 320.0 450.0 DIGCL R 90.0 55.0 2 Y 4 4