• <track id="0aiby"><code id="0aiby"><dd id="0aiby"></dd></code></track>

    <ins id="0aiby"></ins>

    當前位置: 主頁 > 家居 >

    漢語自動分詞的研究現狀,漢語自動分詞對搜索引擎有多大影響?

    時間:2018-11-21來源:互聯網 作者:編輯 點擊:
    目前,國內的每個行業、領域都在飛速發展,這中間產生了大量的中文信息資源,為了能夠及時準確的獲取最新的信息,中文搜索引擎是必然的產物。中文搜索引擎與西文搜索引擎在實

    目前,國內的每個行業、領域都在飛速發展,這中間產生了大量的中文信息資源,為了能夠及時準確的獲取最新的信息,中文搜索引擎是必然的產物。中文搜索引擎與西文搜索引擎在實現的機制和原理上大致雷同,但由于漢語本身的特點,必須引入對于中文語言的處理技術,而漢語自動分詞技術就是其中很關鍵的部分。漢語自動分詞到底對搜索引擎有多大影響?

    漢語自動分詞的研究現狀,漢語自動分詞對搜索引擎有多大影響?

    對于搜索引擎來說,最重要的并不是找到所有結果,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜索結果的相關度排序。分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。因此對于搜索引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。

    研究漢語自動分詞算法,對中文搜索引擎的發展具有至關重要的意義??焖贉蚀_的漢語自動分詞是高效中文搜索引擎的必要前提。本課題研究中文搜索引擎中漢語自動分詞系統的設計與實現,從目前中文搜索引擎的發展現狀出發,引出中文搜索引擎的關鍵技術------漢語自動分詞系統的設計。首先研究和比較了幾種典型的漢語自動分詞詞典機制,指出各詞典機制的優缺點,然后分析和比較了幾種主要的漢語自動分詞方法,闡述了各種分詞方法的技術特點。針對課題的具體應用領域,提出改進詞典的數據結構,根據漢語中二字詞較多的特點,通過快速判斷二字詞來優化速度;分析中文搜索引擎下歧義處理和未登陸詞處理的技術,提出了適合本課題的自動分詞算法,并給出該系統的具體實現。最后對系統從分詞速度和分詞準確性方面進行了性能評價。本課題的研究將促進中文搜索引擎和漢語自動分詞新的發展。

    二、漢語自動分詞系統的研究現狀

    1、幾個早期的自動分詞系統

    自80年代初中文信息處理領域提出了自動分詞以來,一些實用性的分詞系統逐步得以開發,其中幾個比較有代表性的自動分詞系統在當時產生了較大的影響。

    CDWS分詞系統是我國第一個實用的自動分詞系統,由北京航空航天大學計算機系于1983年設計實現,它采用的自動分詞方法為最大匹配法,輔助以詞尾字構詞糾錯技術。其分詞速度為5-10字/秒,切分精度約為1/625。

    ABWS是山西大學計算機系研制的自動分詞系統,系統使用“兩次掃描聯想-回溯”方法,運用了較多的詞法、句法等知識。其切分正確率為98.6%(不包括非常用、未登錄的專用名詞),運行速度為48詞/分鐘。

    CASS是北京航空航天大學于1988年實現的分詞系統。它使用正向增字最大匹配,運用知識庫來處理歧義字段。其機械分詞速度為200字/秒以上,知識庫分詞速度150字/秒(沒有完全實現)。

    書面漢語自動分詞專家系統是由北京師范大學現代教育研究所于1991前后研制實現的,它首次將專家系統方法完整地引入到分詞技術中。

    2、清華大學SEG分詞系統

    此系統提供了帶回溯的正向、反向、雙向最大匹配法和全切分-評價切分算法,由用戶來選擇合適的切分算法。其特點則是帶修剪的全切分-評價算法。經過封閉試驗,在多遍切分之后,全切分-評價算法的精度可以達到99%左右。

    3、清華大學SEGTAG系統

    此系統著眼于將各種各類的信息進行綜合,以便最大限度地利用這些信息提高切分精度。系統使用有向圖來集成各種各樣的信息。通過實驗,該系統的切分精度基本上可達到99%左右,能夠處理未登錄詞比較密集的文本,切分速度約為30字/秒。

    4、國家語委文字所應用句法分析技術的漢語自動分詞

    此分詞模型考慮了句法分析在自動分詞系統中的作用,以更好地解決切分歧義。切詞過程考慮到了所有的切分可能,并運用漢語句法等信息從各種切分可能中選擇出合理的切分結果。

    5、復旦分詞系統

    此系統由四個模塊構成。一、預處理模塊,利用特殊的標記將輸入的文本分割成較短的漢字串,這些標記包括標點符號、數字、字母等非漢字符,還包括文本中常見的一些字體、字號等排版信息。二、歧義識別模塊,使用正向最小匹配和逆向最大匹配對文本進行雙向掃描,如果兩種掃描結果相同,則認為切分正確,否則就判別其為歧義字段,需要進行歧義處理;三、歧義字段處理模塊,此模塊使用構詞規則和詞頻統計信息來進行排歧。最后,此系統還包括一個未登錄詞識別模塊,實驗過程中,對中文姓氏的自動辨別達到了70%的準確率。系統對文本中的地名和領域專有詞匯也進行了一定的識別。

    6、哈工大統計分詞系統

    此系統能夠利用上下文識別大部分生詞,解決一部分切分歧義。經測試,此系統的分詞錯誤率為1.5%,速度為236字/秒。

    7、杭州大學改進的MM分詞系統

    系統的詞典采用一級首字索引結構,詞條中包括了“非連續詞”(形如C1…*Cn)。系統精度的實驗結果為95%,低于理論值99.73%,但高于通常的MM、RMM、DMM方法。

    8、MicrosoftResearch漢語句法分析器中的自動分詞

    微軟研究院的自然語言研究所在從90年代初開始開發了一個通用型的多國語言處理平臺NLPWin,據報道,NLPWin的語法分析部分使用的是一種雙向的ChartParsing,使用了語法規則并以概率模型作導向,并且將語法和分析器獨立開。實驗結果表明,系統可以正確處理85%的歧義切分字段,在Pentium200PC上的速度約600-900字/秒。

    9、北大計算語言所分詞系統

    本系統由北京大學計算語言學研究所研制開發,屬于分詞和詞類標注相結合的分詞系統。系統的分詞連同標注的速度在Pentium133Hz/16MB內存機器上的達到了每秒3千詞以上,而在PentiumII/64MB內存機器上速度高達每秒5千詞。

    三、主要的自動分詞算法

    現有的分詞算法主要可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。

    1、基于字符串匹配的分詞方法

    這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下;

    1正向最大匹配

    2逆向最大匹配

    3最少切分(使每一句中切出的詞數最?。?/p>

    還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。由于分詞是一個智能決策過程,機械分詞方法無法解決分詞階段的兩大基本問題:歧義切分問題和未登錄詞識別問題。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。

    一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。

    另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。

    對于機械分詞方法,可以建立一個一般的模型,形式地表示為ASM(d,a,m),即AutomaticSegmentationModel。其中,

    d:匹配方向,+1表示正向,-1表示逆向;

    a:每次匹配失敗后增加/減少字串長度(字符數),+1為增字,-1為減字;

    m:最大/最小匹配標志,+1為最大匹配,-1為最小匹配。

    例如,ASM(+,-,+)就是正向減字最大匹配法(即MM方法),ASM(-,-,+)就是逆向減字最大匹配法(即RMM方法),等等。對于現代漢語來說,只有m=+1是實用的方法。用這種模型可以對各種方法的復雜度進行比較,假設在詞典的匹配過程都使用順序查找和相同的計首字索引查找方法,則在不記首字索引查找次數(最小為log<漢字總數>12~14)和詞典讀入內存時間的情況下,對于典型的詞頻分布,減字匹配ASM(d,-,m)的復雜度約為12.3次,增字匹配ASM(d,+,m)的復雜度約為10.6。

    2、基于理解的分詞方法

    通常的分析系統,都力圖在分詞階段消除所有歧義切分現象。而有些系統則在后續過程中來處理歧義切分問題,其分詞過程只是整個語言理解過程的一小部分。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

    在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、云計算和物聯網的入門知識和資訊信息,讓我們一起攜手,引領人工智能的未來

    頂一下
    (0)
    0%
    踩一下
    (0)
    0%
    ------分隔線----------------------------
    發表評論
    請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
    評價:
    文章導航
    推薦內容
    丁香婷婷激情综合俺也去_国产精品国色综合久久蜜桃_欧美在线播放一区三区不卡_九九久久国产精品九九久久99
  • <track id="0aiby"><code id="0aiby"><dd id="0aiby"></dd></code></track>

    <ins id="0aiby"></ins>