还剩9页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
编码问题,关于gb2312和utf8表于2011-05-24234727相信大家很多人跟我一样,对于编码一直感觉云山雾罩,说知道吧就知道gb2312是中文编码,一看见乱码,就知道是编码出了问题,但是是哪儿出问题,为什么出问题,除了蒙,还是蒙尤其是弄好了之后,有人问为什么呢自己也不知道,就说反正就是这样的,用什么编码就用什么解码为什么,鬼知道其实问题还是理解了之后,才能真正的明白为什么会这样,而且编码这个问题,也不是那么深奥,在网上搜索了一些资料,算是一直以来对编码问题的一个解决吧,最让人明白的资料有两个,第一个关于字符编码,你所需要知道的字符编码的问题看似很小,经常被技术人员忽视,但是很容易导致一些莫名其妙的问题这里总结了一下字符编码的一些普及性的知识,希望对大家有所帮助还是得从ASCII码说起说到字符编码,不得不说ASCII码的简史计算机一开始发明的时候是用来解决数字计算的问题,后来人们发现,计算机还可以做更多的事,例如文本处理但由于计算机只识数,因此人们必须告诉计算机哪个数字来代表哪个特定字符,例如65代表字母A,66代表字母B,以此类推但是计算机之间字符-数字的对应关系必须得一致,否则就会造成同一段数字在不同计算机上显示出来的字符不一样因此美国国家标准协会ANSI制定了一个标准,规定了常用字符的集合以及每个字符对应的编号,这就是ASCII字符集Character Set,也称ASCII码当时的计算机普遍使用8比特字节作为最小的存储和处理单元,加之当时用到的字符也很少,26个大小写英文字母还有数字再加上其他常用符号,也不到100个,因此使用7个比特位就可以高效的存储和处理ASCII码,剩下最高位1比特被用作一些通讯系统的奇偶校验注意,字节代表系统能够处理的最小单位,不一定是8比特只是现代计算机的事实标准就是用8比特来代表一个字节在很多技术规格文献中,为了避免产生歧义,更倾向于使用8位组Octet而不是字节Byte这个术语来强调8个比特的二进制流下文中为了便于理解,我会延用大家熟悉的字节这个概念ASCII字符集由95个可打印字符0x20-0x7E和33个控制字符0x00-0x19,0x7F组成可打印字符用于显示在...。