首页 > 作文

GD输出汉字的函数的分析

更新时间:2023-04-06 07:00:09 阅读: 评论:0

很早以前找到一个把gb码转化为utf-8的函数,配合一个gb到unicode的对照表(gb2312.txt),用于在gd中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个unicode到utf-8编码转换的函数,这一部分修改前后没有变化:

function u2utf8($c)

{

for($i=0;$i<count($c);$i++)

$str=””;

if ($c < 0x80) {

$str.=$c;

}

el if ($c < 0x800) {

$str.=(0xc0 | $c>>6);

$str.=(0x80 | $c & 0x3f);

}

el if ($c < 0x10000) {

$str.=(0xe0 | $c>>12);

$str.=(0x80 | $c>>6 & 0x3f);

$str.=(0x80 | $c & 0x3f);

}

el if ($c < 0x200000) {

$str.=(0xf0 | $c>>18);

$str.=(0x80 | $c>>12 & 0x3f);

$str.=(0x80 | $c>>6 & 0x3f);

$str.=(0x80 | $c & 0x3f);

}

return $str;

}

这里完全是按照utf-8编码的规则,通过判断字符属于不同的unicode编码段范围,进行不同的移位和位与操作,以转化为utf-8编码。关于该规则可参考/d/file/titlepic/

这是修改前的gb转化为utf-8编码的函数,其中调用了上面的u2utf8函数。

function gb2utf8($gb)/* program writen by sadly www.phpx.com*/

{

if(!trim($gb))

return $gb;

$filename=”gb2312.txt”;

$tmp=file($filename);

$codetable=array();

while(list($key,$value)=each($tmp))

$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$utf8=””;

while($gb)

{

if (ord(substr($gb,0,1))>127)

{

$this=sub英文资料str($gb,0,2);

$gb=substr古代兵器($gb,2,strlen($gb));

$utf8.=u2utf8(hexdec($codetable[hexd痛到心滴血的句子ec(bin2hex($this))-0x8080]));

}

el

{

$gb=substr($gb,1,strlen($gb));

$utf8.=u2utf8(substr($gb,0,1));

}

}

$ret=””;

for($i=0;$i<strlen($utf8);$i+=3)

$ret.=chr(substr($utf8,$i,3));

return $ret;

}

函数中while循环部分,把汉字逐个按照“对照表”转化为unicode,再通过u2utf8函数转化为utf-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个utf-8字符(见/d/file/titlepic/

以下是修改后的函数:

function gb2utf8($gb)/* program writen by sadlymodified by agun */

{

if(!trim($gb))

return $gb;

$filename=”gb2312.txt”;

$tmp=file($filename);
科大讯飞词典笔
$codetable=array();

while(list($key,$value)=each($tmp))

$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret=””;

$utf8=””;

while($gb)

{

if (ord(substr($gb,0,1))>127)

{

$this=substr($g策划案pptb,0,2);

$gb=substr($gb,2,strlen($gb));

$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));

for($i=0;$i<strlen($utf8);$i+=3)

$ret.=chr(substr($utf8,$i,3));

}

el

{

$ret.=substr($gb,0,1);

$gb=substr($gb,1,strlen($gb));

}

}

return $ret;

}

修改后的函数将 gb转化为unicode、unicode转化为utf-8、几个字节合成一个utf-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个utf-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!

本文发布于:2023-04-06 07:00:04,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/9013ebc6454ab83f1e38f1ccb4740f28.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:GD输出汉字的函数的分析.doc

本文 PDF 下载地址:GD输出汉字的函数的分析.pdf

标签:西文   转化为   字符   函数
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图