现成汉字字符串的模糊查找函数

发表于:2007-07-01来源:作者:点击数: 标签:
/* 本论坛提供的函数原型为:BOOL BlurFindStr(CString strSource,CString strFindCell),模糊查找函数。 功能:判断子字符串strFindCel在查找目标字符串strSource中是否存在,若存在返回TRUE,否则返回FALSE。 说明:strSource为任意字符串,可以包含中文或


/*

本论坛提供的函数原型为:BOOL BlurFindStr(CString &strSource,CString &strFindCell),模糊查找函数。

功能:判断子字符串strFindCel在查找目标字符串strSource中是否存在,若存在返回TRUE,否则返回FALSE。

说明:strSource为任意字符串,可以包含中文或英文字母,而strFindCell也可为中文或英文字母。strFindCell中可以用

汉字的声母的第一个字母表示,例如“劳动局”可以用“ldj”代替。“戴军民”可以用“djm”代替,当然,汉字也可

不用声母第一个字母代替,直接为该汉字,例如“劳动局”可以用“劳动j”。另外,若字符串strSource中本来就包含这个

英文字符串,则函数也会返回TRUE,或者如上面例子“劳动局”,若还有其他三个连续的汉字声母也是“ldj”,则也返回

TRUE。


*/

BOOL IsBlur(BYTE c1,BYTE c2,char c)
{//模糊匹配函数,判断字母c是否为汉字(c1c2)的声母。(一个汉字由两个字节构成,且每个字节的最高位即左边第一位为1)

//汉字声母区间表:
static unsigned char cEnd[23*5+1] = "啊澳a芭怖b擦错c搭堕d蛾贰e发咐f噶过g哈紕h肌骏j喀阔k垃络l妈那m娜诺n哦沤o啪瀑p期群q然弱r撒所s塌唾t挖误w昔迅x压孕y匝座z";
static int nWord[23][2] = {0};
int i=0;
if(nWord[0][0] == 0)
{//初始化nWord
 for(i = 0;i < 23; i++)
 {
  nWord[i][0] = cEnd[i*5]*256 + cEnd[i*5+1];
  nWord[i][1] = cEnd[i*5+2]*256 + cEnd[i*5+3];
 }
}
int nWordChinese = c1 * 256 + c2;
int nLeft = 0,nRight = 22;
BOOL bMatch = FALSE;
while(nLeft <= nRight)
{
 i = (nLeft + nRight)/2;
 if(nWordChinese > nWord[i][1])
  nLeft = i+1;
 else if(nWordChinese < nWord[i][0])
  nRight = i-1;
 else
 {
  if(cEnd[i*5+4] == c)
  bMatch = TRUE;
  break;
 }
}
return bMatch;
}

BOOL BlurFindStr(CString &strSource,CString &strFindCell)
{//模糊搜索,支持用汉字用声母查询,返回
int nLenCell = strFindCell.GetLength();
int nLenSource = strSource.GetLength();
if(nLenCell < 1)
 return TRUE;
if(nLenSource <1)
 return FALSE;
strSource.MakeLower();
strFindCell.MakeLower();
BOOL bContainChar = FALSE;
int i,j,k;
for(i=0; i< nLenCell; i++)
{
 if( !(strFindCell.GetAt(i)&0x80) ) //1<<7
 {//不是汉字,需要进行模糊查询
  bContainChar = TRUE;
  break;
 }
}
j = 0;
int nMatchCharCount = 0;
BOOL bEqual = FALSE;
int ik;
for(i = 0; i< nLenCell && j < nLenSource; i++)
{
 ik = i;
 char c = strFindCell.GetAt(i);
 if(c&0x80)//汉字
 {
  i++;
  while(j < nLenSource)
  {
  char cs = strSource.GetAt(j++);
  k = j;
  if(cs&0x80)//汉字
   j++;
  if(cs == c &&
   k < nLenSource && strSource.GetAt(k) == strFindCell.GetAt(i))
  {
   if(ik == 0)
   bEqual = TRUE;
   nMatchCharCount += 2;
   break;
  }
  else if(i > 0)
  {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
  }
  }
 }
 else//字母
 {
  while(j < nLenSource)
  {
  char cs = strSource.GetAt(j++);
  k = j;
  if(cs&0x80)//汉字
  {
   j++;
   if(IsBlur(cs,strSource.GetAt(k),c))
   {
   if(ik == 0)
    bEqual = TRUE;
   nMatchCharCount++;
   break;
   }
   else if(i > 0)
   {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
   }
  }
  else if(cs == c)
  {
   if(ik == 0)
   bEqual = TRUE;
   nMatchCharCount++;
   break;
  }
  else if(i > 0)
  {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
  }
  }
 }
}
if(bEqual && i == nLenCell && j == nLenSource)
 return TRUE+TRUE;
else
 return (nMatchCharCount == nLenCell);
}


原文转自:http://www.ltesting.net