PHP中的HTML编辑器和子字符串


HTML Editor and Substring in PHP

我使用TINY MCE编辑器在php项目管理应用程序的php mysql数据库中编辑/添加关于项目的文本/描述。管理员可以使用该编辑器添加和其他html实体。例如

<table><tr><td>...blah blah text entered....</td></tr></table>

当我将这个从0替换为10时,它会导致问题,因为表开始而不是结束....

谁能建议解决这个问题的理想方法.....?

编辑:我想显示保存在数据库中的文本的一部分

使用上面的PHP函数。HTML标签将被考虑。

function truncate($text, $length = 100, $ending = '...', $exact = false, $considerHtml = true) {
    if ($considerHtml) {
            if (strlen(preg_replace('/<.*?>/', '', $text)) <= $length) {
                    return $text;
            }
            preg_match_all('/(<.+?>)?([^<>]*)/s', $text, $lines, PREG_SET_ORDER);
            $total_length = strlen($ending);
            $open_tags = array();
            $truncate = '';
            foreach ($lines as $line_matchings) {
                    if (!empty($line_matchings[1])) {
                            if (preg_match('/^<('s*.+?'/'s*|'s*(img|br|input|hr|area|base|basefont|col|frame|isindex|link|meta|param)('s.+?)?)>$/is', $line_matchings[1])) {
                            } else if (preg_match('/^<'s*'/([^'s]+?)'s*>$/s', $line_matchings[1], $tag_matchings)) {
                                    $pos = array_search($tag_matchings[1], $open_tags);
                                    if ($pos !== false) {
                                    unset($open_tags[$pos]);
                                    }
                            } else if (preg_match('/^<'s*([^'s>!]+).*?>$/s', $line_matchings[1], $tag_matchings)) {
                                    array_unshift($open_tags, strtolower($tag_matchings[1]));
                            }
                            $truncate .= $line_matchings[1];
                    }
                    $content_length = strlen(preg_replace('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|[0-9a-f]{1,6};/i', ' ', $line_matchings[2]));
                    if ($total_length+$content_length > $length) {
                            $left = $length - $total_length;
                            $entities_length = 0;
                            if (preg_match_all('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|[0-9a-f]{1,6};/i', $line_matchings[2], $entities, PREG_OFFSET_CAPTURE)) {
                                    foreach ($entities[0] as $entity) {
                                            if ($entity[1]+1-$entities_length <= $left) {
                                                    $left--;
                                                    $entities_length += strlen($entity[0]);
                                            } else {
                                                    break;
                                            }
                                    }
                            }
                            $truncate .= substr($line_matchings[2], 0, $left+$entities_length);
                            break;
                    } else {
                            $truncate .= $line_matchings[2];
                            $total_length += $content_length;
                    }
                    if($total_length >= $length) {
                            break;
                    }
            }
    } else {
            if (strlen($text) <= $length) {
                    return $text;
            } else {
                    $truncate = substr($text, 0, $length - strlen($ending));
            }
    }
    if (!$exact) {
            $spacepos = strrpos($truncate, ' ');
            if (isset($spacepos)) {
                    $truncate = substr($truncate, 0, $spacepos);
            }
    }
    $truncate .= $ending;
    if($considerHtml) {
            foreach ($open_tags as $tag) {
                    $truncate .= '</' . $tag . '>';
            }
    }
    return $truncate;
}
$str = '<table><tr><td>...blah blah text entered....</td></tr></table>';
print truncate($str, 10, '', true, true);
// will output: <table><tr><td>...blah bl</td></tr></table>

首先使用strip_tags删除html,然后使用substr获取结果的前10个字符。然后,您将获得文本的纯文本版本。

还要注意,使用没有转义实体的文本是明智的。例如,C'est privé而不是C'est priv&eacute;,否则您仍然可以以C'est priv&eac这样的文本结束,这看起来也像垃圾。

最好是存储和处理未转义的值,但是如果确实有转义数据,可以使用html_entity_decode将html转义序列转换为它们的实际字符。