小編最近研究了一下搜索引擎,發(fā)現(xiàn)如今的各大搜索引擎編碼居然不一樣。當然還是不外乎gb2312和utf-8了。編碼問題是讓小編比較頭疼的問題,頭疼的不要命的問題,嘿嘿……但是現(xiàn)在,小編就要跟大家說說這其中的一些奧秘了。
我們知道獲得關(guān)鍵詞,一般是通過來訪頁面的url進行分析的。
比如:http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr=
各位肯定知道這個是通過urlencode編碼的。 我們得到其中的信息,需要進行2步:
第一步是進行urldecode,在我們普通參數(shù)活得的時候,這個是由asp自己來進行的,但是現(xiàn)在我們不得不進行手工解碼。
網(wǎng)上函數(shù)很多,但都是針對于gb2312頁面解gb2312.utf-8的。對于這個,我們可以很輕松的先進行解碼,然后根據(jù)搜索引擎判斷它的編碼,如果是utf-8就再轉(zhuǎn)換為gb2312。
但是由于我的網(wǎng)站是utf-8頁面的,而utf-8頁面我找到的只有解utf-8字符的urldecode編碼的,在這里停頓了很久,最后我只能用最糟糕的方法,把拆分出來的關(guān)鍵詞用xmlhttp提交到一個gb2312的asp頁面,然后活得亂碼(gb2312)后再進行g(shù)b2312 to utf-8的轉(zhuǎn)換。 下面是主要實現(xiàn)的代碼:
Public Function GetSearchKeyword(RefererUrl) '搜索關(guān)鍵詞
if RefererUrl="" or len(RefererUrl)<1 then exit function
on error resume next
Dim re
Set re = New RegExp
re.IgnoreCase = True
re.Global = True
Dim a,b,j
'模糊查找關(guān)鍵詞,此方法速度較快,范圍也較大
re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))"
Set a = re.Execute(RefererUrl)
If a.Count>0 then
Set b = a(a.Count-1).SubMatches
For j=1 to b.Count
If Len(b(j))>0 then
if instr(1,RefererUrl,"google",1) then
GetSearchKeyword=Trim(U8Decode(b(j)))
elseif instr(1,refererurl,"yahoo",1) then
GetSearchKeyword=Trim(U8Decode(b(j)))
elseif instr(1,refererurl,"yisou",1) then
GetSearchKeyword=Trim(getkey(b(j)))
elseif instr(1,refererurl,"3721",1) then
GetSearchKeyword=Trim(getkey(b(j)))
else
GetSearchKeyword=Trim(getkey(b(j)))
end if
Exit Function
end if
Next
End If
if err then
err.clear
GetSearchKeyword = RefererUrl
else
GetSearchKeyword = ""
end if
End Function
Function URLEncoding(vstrIn)
dim strReturn,i,thischr
strReturn = ""
For i = 1 To Len(vstrIn)
ThisChr = Mid(vStrIn,i,1)
If Abs(Asc(ThisChr)) < &HFF Then
strReturn = strReturn & ThisChr
Else
innerCode = Asc(ThisChr)
If innerCode < 0 Then
innerCode = innerCode + &H10000
End If
Hight8 = (innerCode And &HFF00) &HFF
Low8 = innerCode And &HFF
strReturn = strReturn & "%" & Hex(Hight8) & "%" & Hex(Low8)
End If
Next
URLEncoding = strReturn
End Function
function getkey(key)
dim oReq
set oReq = CreateObject("MSXML2.XMLHTTP")
oReq.open "POST","http://"&WebUrl&"/system/ShowGb2312XML.asp?a="&key,false
oReq.send
getkey=UTF2GB(oReq.responseText)
end function
function chinese2unicode(Str)
dim i
dim Str_one
dim Str_unicode
for i=1 to len(Str)
Str_one=Mid(Str,i,1)
Str_unicode=Str_unicode&chr(38)
Str_unicode=Str_unicode&chr(35)
Str_unicode=Str_unicode&chr(120)
Str_unicode=Str_unicode& Hex(ascw(Str_one))
Str_unicode=Str_unicode&chr(59)
next
Response.Write Str_unicode
end function
function UTF2GB(UTFStr)
Dim dig,GBSTR
for Dig=1 to len(UTFStr)
if mid(UTFStr,Dig,1)="%" then
if len(UTFStr) >= Dig+8 then
GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9))
Dig=Dig+8
else
GBStr=GBStr & mid(UTFStr,Dig,1)
end if
else
GBStr=GBStr & mid(UTFStr,Dig,1)
end if
next
UTF2GB=GBStr
end function
function ConvChinese(x)
dim a,i,j,DigS,Unicode
A=split(mid(x,2),"%")
i=0
j=0
for i=0 to ubound(A)
A(i)=c16to2(A(i))
next
for i=0 to ubound(A)-1
DigS=instr(A(i),"0")
Unicode=""
for j=1 to DigS-1
if j=1 then
A(i)=right(A(i),len(A(i))-DigS)
Unicode=Unicode & A(i)
else
i=i+1
A(i)=right(A(i),len(A(i))-2)
Unicode=Unicode & A(i)
end if
next
if len(c2to16(Unicode))=4 then
ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode)))
else
ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode)))
end if
next
end function
function U8Decode(enStr)
'輸入一堆有%分隔的字符串,先分成數(shù)組,根據(jù)utf8規(guī)則來判斷補齊規(guī)則
'輸入:關(guān) E5 85 B3 鍵 E9 94 AE 字 E5 AD 97
'輸出:關(guān) B9D8 鍵 BCFC 字 D7D6
dim c,i,i2,v,deStr,WeiS
for i=1 to len(enStr)
c=Mid(enStr,i,1)
if c="%" then
v=c16to2(Mid(enStr,i+1,2))
'判斷第一次出現(xiàn)0的位置,
'可能是1(單字節(jié)),3(3-1字節(jié)),4,5,6,7不可能是2和大于7
'理論上到7,實際不會超過3。
WeiS=instr(v,"0")
v=right(v,len(v)-WeiS)'第一個去掉最左邊的WeiS個
i=i+3
for i2=2 to WeiS-1
c=c16to2(Mid(enStr,i+1,2))
c=right(c,len(c)-2)'其余去掉最左邊的兩個
v=v & c
i=i+3
next
if len(c2to16(v)) =4 then
deStr=deStr & chrw(c2to10(v))
else
deStr=deStr & chr(c2to10(v))
end if
i=i-1
else
if c="+" then
deStr=deStr&" "
else
deStr=deStr&c
end if
end if
next
U8Decode = deStr
end function
function c16to2(x)
'這個函數(shù)是用來轉(zhuǎn)換16進制到2進制的,可以是任何長度的,一般轉(zhuǎn)換UTF-8的時候是兩個長度,比如A9
'比如:輸入“C2”,轉(zhuǎn)化成“11000010”,其中1100是"c"是10進制的12(1100),那么2(10)不足4位要補齊成(0010)。
dim tempstr
dim i:i=0'臨時的指針
for i=1 to len(trim(x))
tempstr= c10to2(cint(int("&h" & mid(x,i,1))))
do while len(tempstr)<4
tempstr="0" & tempstr'如果不足4位那么補齊4位數(shù)
loop
c16to2=c16to2 & tempstr
next
end function
function c2to16(x)
'2進制到16進制的轉(zhuǎn)換,每4個0或1轉(zhuǎn)換成一個16進制字母,輸入長度當然不可能不是4的倍數(shù)了
dim i:i=1'臨時的指針
for i=1 to len(x) step 4
c2to16=c2to16 & hex(c2to10(mid(x,i,4)))
next
end function
function c2to10(x)
'單純的2進制到10進制的轉(zhuǎn)換,不考慮轉(zhuǎn)16進制所需要的4位前零補齊。
'因為這個函數(shù)很有用!以后也會用到,做過通訊和硬件的人應(yīng)該知道。
'這里用字符串代表二進制
c2to10=0
if x="0" then exit function'如果是0的話直接得0就完事
dim i:i=0'臨時的指針
for i= 0 to len(x) -1'否則利用8421碼計算,這個從我最開始學(xué)計算機的時候就會,好懷念當初教我們的謝道建老先生啊!
if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i)
next
end function
function c10to2(x)
'10進制到2進制的轉(zhuǎn)換
dim sign, result
result = ""
'符號
sign = sgn(x)
x = abs(x)
if x = 0 then
c10to2 = 0
exit function
end if
do until x = "0"
result = result & (x mod 2)
x = x 2
loop
result = strReverse(result)
if sign = -1 then
c10to2 = "-" & result
else
c10to2 = result
end if
end function
function URLDecode(enStr)
dim deStr,strSpecial
dim c,i,v<