很多做站的朋友都会有一个问题,在显示摘要的时候,如果摘要前有很多图片,那么显示出来的页面是不太正常的。比如,摘要显示100个字符,可是如果前面有很多图片,去掉图片代码后,100个字符已经几乎用完了。怎么办?
我个人是这样处理的。在PHP中,先用strip_tags去除内容中的标签,然后trim一下,再进行截取。这样的话就几乎没有什么问题了。
而这篇文章就有点意思,用作者的话来说,是无损html。来吧看看他写的内容。
最近在做一些内容搜索的工作,搜索出来的内容为html格式,列表部分需要显示每项内容的一部分。因为是html格式的内容,直接截取内容的前多少字符显 然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的, 因为容易调试)
- var br = {};
- br.spTags = ["img","br","hr"];/*不需要成对出现的标记*/
- br.contain = function(arr,it){
- for(var i=0,len=arr.length;i<len;i++){
- if(arr[i]==it){
- return true;
- }
- }
- return false;
- }
- br.subArtc = function(article,worldNum){
- var result = [];
- /*首先截取需要的字串*/
- var wcount = 0;
- var startTags = [],endTags = [];
- var isInTag = false;
- for(var i=0,len=article.length;i<len;i++){
- var w = article[i];
- result.push(w);
- if(w=="<"){
- isInTag = true;
- }
- if(!isInTag){
- wcount++;
- if(wcount==worldNum){
- break;
- }
- }
- if(w==">"){
- isInTag = false;
- }
- }
- /*对字串进行处理*/
- var j=0;
- isInTag = false;
- var isStartTag = true;
- var tagTemp = "";
- while(j<i){
- w = result[j];
- if(isInTag){
- if(w==">" || w==" " || w=="/"){
- isInTag = false;
- if(isStartTag){
- startTags.push(tagTemp);
- }else{
- endTags.push(tagTemp);
- }
- tagTemp = "";
- }
- if(isInTag){
- tagTemp+=w;
- }
- }
- if(w=="<"){
- isInTag = true;
- if(result[j+1]=="/"){
- isStartTag = false;
- j++;
- }else{
- isStartTag = true;
- }
- }
- j++;
- }
- /*剔除img,br等不需要成对出现的标记*/
- var newStartTags = [];
- for(var x=0,len=startTags.length;x<len;x++){
- if(!br.contain(br.spTags,startTags[x])){
- newStartTags.push(startTags[x]);
- }
- }
- /*添加没有的结束标记*/
- var unEndTagsCount = newStartTags.length - endTags.length;
- while(unEndTagsCount>0){
- result.push("<");
- result.push("/")
- result.push(newStartTags[unEndTagsCount-1]);
- result.push(">");
- unEndTagsCount--;
- }
- return result.join("");
- };
基本思路:
1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。
2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以"<"开通,且下一个字符不为"/"。
3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。
4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。
此功能没有经过严格的测试,大家若有兴趣可以可以帮忙测试,有更好的想法的也可以回帖讨论。
--EOF--http://www.cnblogs.com/bravfing/archive/2010/05/02/1725924.html
我没有用PHP的试过,因为在PHP中本身对多字节的支持就不是特别的好不象js,认为中文就是一个字符。不过思路可以考虑一下,但真正要显示摘要的话,当然还是不要含 HTML代码,因为那可能会影响页面布局。