很多语言,包括英语在内,都使用沉音字符(accented character)。因为这些字符不属于 ascii 字符集,所以如果不查看 unicode 值也不使用 unicode 编辑器并将其转成一个已知字符集,就很难编写使用这些字符的代码。
oracle9i 引入了 compose 函数,该函数接受一串 unicode 字符并规则化其文本。这就意味着它可以接受一个字母和一个组合标记,比如说‘a'(unicode 字符0097)和沉音符(unicode 字符0300),然后创建一个单独的由两个标记组合而成的字符。compose 使用特殊的组合标记,而没有使用 ascii 中相应的音节标记,它所使用的特殊的组合标记是 unicode 标准 的一部分。上面的例子的结果应该是 unicode 字符00e0(有一个沉音符的小写拉丁字母‘a')。
在 ansi 中最常见的组合字符有:
· u+0300:沉音符(grave accent)( ` )
· u+0301:重音符(acute accent)( ' )
· u+0302:抑扬音符号(circumflex accent)(^)
· u+0303:颚化符号(tilde)(~)
· u+0308:元音变音
如果没有特殊的软件或者键盘驱动程序的话,很难在键盘上输入 unicode 字符0097和0300。因此,以纯 ascii 文本输入 unicode 序列的一个方法是使用 unistr 函数。这个函数接受一个 ascii 字符串然后以国家字符集(通常作为16位 unicode 或者 utf-8 字符集安装)创建一个 unicode 字符的序列。它使用十六进制占位符序列映射任何非 ascii 字符,映射方式与 java 类似。
要输入 a 后接一个沉音符组合字符的序列,可以使用 unistr(‘a/0300'),而不要试图直接在代码中输入字符。这个函数在任何字符集以及任何具有基于 unicode 的国家字符集的数据库下都可以正常运行。可以将多个组合字符放在函数中——可以在 unistr 函数中混合使用 ascii 和 unicode 占位符。例如,可以像下面这样使用 unistr 函数:
select compose(unistr('unless you are nai/0308ve, meet me at the cafe/0301 with
your re/0301sume/0301.')) from dual;
在将 unistr 函数的输出与 compose 组合时,可以在不查找任何值的情况下生成一个 unicode 字符。例如:
select 'it is true' if compose(unistr('a/0300')) = unistr('/00e0');
compose 函数返回一个nvarchar2 字符串,返回的nvarchar2 字符串通常是基于 unicode 的。如果是在本地使用这些字符,在结果中具有一个隐式地 to_char 时,数据库将尝试将 unicode 字符映射到本地字符集。不是所有的字符都可以被映射,有一些字符组合在 compose 中不能工作,因为 unicode 协会没有在 oracle 所用的级别定义它们。
要快速地检查字符如何在一个特定的环境下查询,可以运行一个与下面的脚本类似的脚本,以查看在输出组合字符如何被映射。你可能需要确定一下nls_lang 设置以确保这些字符正确地返回:
create or replace type hexrange_tbl as table of varchar2(4);
/
show errors;
create or replace function hexrange(n1 varchar2,n2 varchar2)
return hexrange_tbl pipelined
is
begin
for i in to_number(n1,'000x') .. to_number(n2,'000x') loop
pipe row(to_char(i,'fm000x'));
end loop;
return;
end hexrange;
/
show errors;
select column_value composer,
compose(unistr('a/'||column_value)) a,
compose(unistr('c/'||column_value)) c,
compose(unistr('e/'||column_value)) e,
compose(unistr('i/'||column_value)) i,
compose(unistr('n/'||column_value)) n,
compose(unistr('o/'||column_value)) o,
compose(unistr('r/'||column_value)) r,
compose(unistr('s/'||column_value)) s,
compose(unistr('u/'||column_value)) u,
compose(unistr('y/'||column_value)) y
from table(hexrange('0300','0327')) x;
下面轻松一下,这里有一小段 pl/sql 脚本,这段脚本使用compose 和unistr 创建一种特殊效果,很多 sms 用户、黑客和垃圾邮件发送者都使用这种效果使可读英文文本难于扫描,因为它使用字符重音版本的一个随机序列。我使用dbms_random 随机选取一个可由不同字符使用的组合字符,然后让 sql 进行组合并进行反向转换以生成 ansi/latin-1 输出。这段脚本在代码中使用了 emp 表的 ename 字段。
set serveroutput on;
declare
-- these combinations work under ansi, at least
a_comb nvarchar2(50) := unistr('/0300/0301/0302/0303/0308/ 030a ');
c_comb nvarchar2(50) := unistr('/0327');
e_comb nvarchar2(50) := unistr('/0300/0301/0302/0308');
i_comb nvarchar2(50) := unistr('/0300/0301/0308');
n_comb nvarchar2(50) := unistr('/0303');
o_comb nvarchar2(50) := unistr('/0300/0301/0302/0303/0308');
u_comb nvarchar2(50) := unistr('/0300/0301/0302/0308');
y_comb nvarchar2(50) := unistr('/0301/0308');
l_idx integer;
l_ename nvarchar2(50);
ch nchar;
l_junk varchar2(50);
begin
dbms_random.initialize(to_char(sysdate,'sssss'));
for row in (select ename from emp) loop
l_ename := row.ename;
l_junk := null;
for i in 1..length(l_ename) loop
ch := substr(l_ename,i,1);
case lower(ch)
when 'a' then
l_junk := l_junk || compose(ch || substr(a_comb,
mod(abs(dbms_random.random),length(a_comb)) + 1,1));
when 'c' then
l_junk := l_junk || compose(ch || substr(c_comb,
mod(abs(dbms_random.random),length(c_comb)) + 1,1));
when 'e' then
l_junk := l_junk || compose(ch || substr(e_comb,
mod(abs(dbms_random.random),length(e_comb)) + 1,1));
when 'i' then
l_junk := l_junk || compose(ch || substr(i_comb,
mod(abs(dbms_random.random),length(i_comb)) + 1,1));
when 'n' then
l_junk := l_junk || compose(ch || substr(n_comb,
mod(abs(dbms_random.random),length(n_comb)) + 1,1));
when 'o' then
l_junk := l_junk || compose(ch || substr(o_comb,
mod(abs(dbms_random.random),length(o_comb)) + 1,1));
when 'u' then
l_junk := l_junk || compose(ch || substr(u_comb,
mod(abs(dbms_random.random),length(u_comb)) + 1,1));
when 'y' then
l_junk := l_junk || compose(ch || substr(y_comb,
mod(abs(dbms_random.random),length(y_comb)) + 1,1));
else
l_junk := l_junk || ch;
end case;
end loop;
dbms_output.put_line(to_char(l_junk));
end loop;
end;
/
show errors;