Go语言视频零基础入门到精通

ksndfwjei · 发表于 2011-10-22 12:25:27

首先，不同编码的文本，是根据文本的前两个字节来定义其编码格式的。定义如下：

  ANSI：　　　　　　　　无格式定义；
  Unicode：　　　　　　前两个字节为FFFE；
  Unicode big endian：　前两字节为FEFF；　
  UTF-8：　　　　　　　前两字节为EFBB；　

  知道了各种编码格式的区别，写代码就容易了. public

static String get_charset( File file ) {

      String charset = "GBK";

byte[] first3Bytes = new

byte[3];

try {

boolean;

         BufferedInputStream bis = new BufferedInputStream( new FileInputStream( file ) );

         bis.mark( 0 );

int read = bis.read( first3Bytes, 0, 3 );

if ( read == -1 ) return charset;

if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) {

            charset = "UTF-16LE";

            checked = true;

         }

else

if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) {

            charset = "UTF-16BE";

            checked = true;

         }

else

if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) {

            charset = "UTF-8";

            checked = true;

         }

         bis.reset();

if ( !checked ) {

// int len = 0;

int loc = 0;

while ( (read = bis.read()) != -1 ) {

                  loc++;

if ( read >= 0xF0 ) break;

if ( 0x80 <= read && read <= 0xBF ) // 单独出现BF以下的，也算是GBK

break;

if ( 0xC0 <= read && read <= 0xDF ) {

                     read = bis.read();

if ( 0x80 <= read && read <= 0xBF ) // 双字节 (0xC0 - 0xDF) (0x80

// - 0xBF),也可能在GB编码内

continue;

else

break;

                  }

else

if ( 0xE0 <= read && read <= 0xEF ) {// 也有可能出错，但是几率较小

                     read = bis.read();

if ( 0x80 <= read && read <= 0xBF ) {

                        read = bis.read();

if ( 0x80 <= read && read <= 0xBF ) {

                              charset = "UTF-8";

break;

                        }

else

break;

                     }

else

break;

                  }

            }

//System.out.println( loc + " " + Integer.toHexString( read ) );

         }

         bis.close();

      } catch ( Exception e ) {

         e.printStackTrace();

      }

return charset;

}

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万！大数据从入门到精通学习路线	年薪50万！机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

Java亿级流量电商系统视频教程

年薪50万Spark2.0从入门到精通

年薪50万！人工智能学习路线教程

[实例教程]Java判断文件编码

浏览过的版块