<b>现成汉字字符串的模糊查找函数</b>_.net

现成汉字字符串的模糊查找函数

发表于：2007-07-01来源：作者：点击数：标签：

/* 本论坛提供的函数原型为：BOOL BlurFindStr(CString strSource,CString strFindCell)，模糊查找函数。功能：判断子字符串strFindCel在查找目标字符串strSource中是否存在，若存在返回TRUE，否则返回FALSE。说明：strSource为任意字符串，可以包含中文或

/*

本论坛提供的函数原型为：BOOL BlurFindStr(CString &strSource,CString &strFindCell)，模糊查找函数。

功能：判断子字符串strFindCel在查找目标字符串strSource中是否存在，若存在返回TRUE，否则返回FALSE。

说明：strSource为任意字符串，可以包含中文或英文字母，而strFindCell也可为中文或英文字母。strFindCell中可以用

汉字的声母的第一个字母表示，例如“劳动局”可以用“ldj”代替。“戴军民”可以用“djm”代替，当然，汉字也可

不用声母第一个字母代替，直接为该汉字，例如“劳动局”可以用“劳动j”。另外，若字符串strSource中本来就包含这个

英文字符串，则函数也会返回TRUE，或者如上面例子“劳动局”，若还有其他三个连续的汉字声母也是“ldj”，则也返回

TRUE。

*/

BOOL IsBlur(BYTE c1,BYTE c2,char c)
{//模糊匹配函数，判断字母c是否为汉字（c1c2）的声母。（一个汉字由两个字节构成，且每个字节的最高位即左边第一位为1）

//汉字声母区间表：
static unsigned char cEnd[23*5+1] = "啊澳a芭怖b擦错c搭堕d蛾贰e发咐f噶过g哈紕h肌骏j喀阔k垃络l妈那m娜诺n哦沤o啪瀑p期群q然弱r撒所s塌唾t挖误w昔迅x压孕y匝座z";
static int nWord[23][2] = {0};
int i=0;
if(nWord[0][0] == 0)
{//初始化nWord
for(i = 0;i < 23; i++)
{
nWord[i][0] = cEnd[i*5]*256 + cEnd[i*5+1];
nWord[i][1] = cEnd[i*5+2]*256 + cEnd[i*5+3];
}
}
int nWordChinese = c1 * 256 + c2;
int nLeft = 0,nRight = 22;
BOOL bMatch = FALSE;
while(nLeft <= nRight)
{
i = (nLeft + nRight)/2;
if(nWordChinese > nWord[i][1])
nLeft = i+1;
else if(nWordChinese < nWord[i][0])
nRight = i-1;
else
{
if(cEnd[i*5+4] == c)
  bMatch = TRUE;
break;
}
}
return bMatch;
}

BOOL BlurFindStr(CString &strSource,CString &strFindCell)
{//模糊搜索，支持用汉字用声母查询,返回
int nLenCell = strFindCell.GetLength();
int nLenSource = strSource.GetLength();
if(nLenCell < 1)
return TRUE;
if(nLenSource <1)
return FALSE;
strSource.MakeLower();
strFindCell.MakeLower();
BOOL bContainChar = FALSE;
int i,j,k;
for(i=0; i< nLenCell; i++)
{
if( !(strFindCell.GetAt(i)&0x80) ) //1<<7
{//不是汉字,需要进行模糊查询
bContainChar = TRUE;
break;
}
}
j = 0;
int nMatchCharCount = 0;
BOOL bEqual = FALSE;
int ik;
for(i = 0; i< nLenCell && j < nLenSource; i++)
{
ik = i;
char c = strFindCell.GetAt(i);
if(c&0x80)//汉字
{
i++;
while(j < nLenSource)
{
  char cs = strSource.GetAt(j++);
  k = j;
  if(cs&0x80)//汉字
   j++;
  if(cs == c &&
   k < nLenSource && strSource.GetAt(k) == strFindCell.GetAt(i))
  {
   if(ik == 0)
   bEqual = TRUE;
   nMatchCharCount += 2;
   break;
  }
  else if(i > 0)
  {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
  }
}
}
else//字母
{
while(j < nLenSource)
{
  char cs = strSource.GetAt(j++);
  k = j;
  if(cs&0x80)//汉字
  {
   j++;
   if(IsBlur(cs,strSource.GetAt(k),c))
   {
   if(ik == 0)
    bEqual = TRUE;
   nMatchCharCount++;
   break;
   }
   else if(i > 0)
   {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
   }
  }
  else if(cs == c)
  {
   if(ik == 0)
   bEqual = TRUE;
   nMatchCharCount++;
   break;
  }
  else if(i > 0)
  {
   bEqual = FALSE;
   nMatchCharCount = 0;
   i = 0;
   break;
  }
}
}
}
if(bEqual && i == nLenCell && j == nLenSource)
return TRUE+TRUE;
else
return (nMatchCharCount == nLenCell);
}

原文转自：http://www.ltesting.net

软件测试 > 测试开发技术 > 软件测试开发语言 > .net >

现成汉字字符串的模糊查找函数

相关文章

MFC屏幕标记之透明窗体

.NET多线程小记(6)：线程同步

C#多线程|匿名委托传参数|测试您的网站能

文本数据库--.Net界未来的一朵奇葩

.NET的MVVM框架描述

.NET软件测试基础

MBT基于模型的测试介绍资料

iso29119相关介绍性资料

HP QTP 10 中文版官方中文补丁

HP QTP 10 英文版下载地址

HP ALM 11 官方中文版下载地址

Quality Center 9.0中文版下载地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安装

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

软件测试沙龙 More>>

新浪微博 More>>

热门标签

《测试团队的招聘与管理

《我们应该如何构建我们

软件测试 > 测试开发技术 > 软件测试开发语言 > .net >

现成汉字字符串的模糊查找函数