Java Unicode转义字符的小小研究

发表于:2007-06-22来源:作者:点击数: 标签:
转义字符 所有的转义字符都是由 '\' 打头的 第二个字符 0-9 :八进制 u :是Unicode转意,长度固定为6位 Other:则为以下字母中的一个 b,t,n,f,r,",\ 都不满足,则产生一个编译错误。 当然了,提供八进制也是为了和C语言兼容. b,t,n,f,r 则是为控制字符.书上的

   

转义字符
  所有的转义字符都是由 '\' 打头的
  第二个字符
      0-9  :八进制
      u    :是Unicode转意,长度固定为6位

      Other:则为以下字母中的一个 b,t,n,f,r,",\
            都不满足,则产生一个编译错误。


  当然了,提供八进制也是为了和C语言兼容.

  b,t,n,f,r 则是为控制字符.书上的意思为:描述数据流的发送者希望那些信息如何被格式化或者被表示.

  Unicode转义字符非常有趣
  它可以写在代码的任意位置,只要转义后是合法的.
  例如:

  int c=0\u003b
  上面的代码可以编译通过,等同于int c=0; \u003b也就是';'的Unicode代码

  上面的例子不能让人很信服,所以特地写了下面这一段代码用来将字符串转换成为unicode字符
  然后你可以将打印出来的代码放置在EggHello.java中,然后运行它,结果是让人激动的。


/*
 * author:鸡蛋 date:2004/11/10 字符串转换为Unicode
 */
public class Asc2Unicode {
 private StringBuffer ch;

 private StringBuffer tch;

 Asc2Unicode(StringBuffer s) {
  ch = s;
  if (ch.length() > 0)
   tch = new StringBuffer(1000);
 }

 void transform() {
  if (ch.length() < 1)
   return;
  for (int i = 0; i < ch.length(); i++) {
   (new Integer((int) ch.charAt(0))).toString();
   tch.append(new StringBuffer("\\u00"));
   tch.append(new StringBuffer(new String(Integer.toHexString((int) ch
     .charAt(i)))));
  }
 }

 StringBuffer getStr() {
  return tch;
 }

 public static void main(String[] argv) {
  Asc2Unicode au = new Asc2Unicode(new StringBuffer(new String(
    "public class EggHello{"
      + "   public static void main(String[] argv){"
      + "System.out.println(\"Hello,World\");" + "}" + "}"
  )
  ));
  au.transform();
  System.out.println(au.getStr());
 }
}


打印如下:
\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0063\u006c\u0061\u0073\u0073\u0020\u0045\u0067\u0067\u0048\u0065\u006c\u006c\u006f\u007b\u0020\u0020\u0020\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0073\u0074\u0061\u0074\u0069\u0063\u0020\u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0061\u0072\u0067\u0076\u0029\u007b\u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0022\u0048\u0065\u006c\u006c\u006f\u002c\u0057\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d


  感觉有点像加密的代码一样! 当然那都是掩耳盗铃。。。
  不过初看起来还是比较让人头晕的。

  Unicode转义就先研究到这里,喝点水,打会游戏。。。

原文转自:http://www.ltesting.net