WEKO3
アイテム
局所的類似情報に基づいたテキストマイニングに関する研究
https://ir.soken.ac.jp/records/1433
https://ir.soken.ac.jp/records/1433ae0904c4-6276-4fc2-8a92-2b1f232aabb2
名前 / ファイル | ライセンス | アクション |
---|---|---|
要旨・審査要旨 (293.5 kB)
|
||
本文 (2.5 MB)
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2010-03-24 | |||||
タイトル | ||||||
タイトル | 局所的類似情報に基づいたテキストマイニングに関する研究 | |||||
タイトル | ||||||
タイトル | Text Mining Based on Locally Similar Information | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_46ec | |||||
資源タイプ | thesis | |||||
著者名 |
竹田, 隆治
× 竹田, 隆治 |
|||||
フリガナ |
タケダ, タカハル
× タケダ, タカハル |
|||||
著者 |
TAKEDA, Takaharu
× TAKEDA, Takaharu |
|||||
学位授与機関 | ||||||
学位授与機関名 | 総合研究大学院大学 | |||||
学位名 | ||||||
学位名 | 博士(情報学) | |||||
学位記番号 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 総研大甲第1240号 | |||||
研究科 | ||||||
値 | 複合科学研究科 | |||||
専攻 | ||||||
値 | 17 情報学専攻 | |||||
学位授与年月日 | ||||||
学位授与年月日 | 2009-03-24 | |||||
学位授与年度 | ||||||
値 | 2008 | |||||
要旨 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 現代は高度情報化社会といわれ、さまざまな情報が電子化されている。こうした電子化<br />された大量の文書が存在する一方、その中から必要とされる情報を効率よく見つけたいと<br />いうユーザの情報取得要求も強くなっている。たとえば、最新ニュースなどに関する記事<br />は、リアルタイム性の高いストリーム型の文書で、その中から、ユーザの興味のある記事<br />をタイムリーに提示することが望まれる。<br /> また、Web上に形成されるコミュニティには、ユーザの意見、要望、苦情等、企業側が<br />想定しない潜在的なニーズやリスクに関する情報が含まれている。Web上に蓄積された文<br />書の分析には、各種のテキスト解析ツールを備え、大量テキストを効率よく処理できるシ<br />ステムが望まれる。<br /> このようなニーズに答えるために、電子化された情報から類似文書をまとめるクラスタ<br />リング、特定の話題に関する文書を選別するフィルタリング、類似文書クラスタの内容を<br />まとめる多文書要約といった高度なテキスト処理技術が必要になる。<br /> 電子化された文書の特徴のひとつとして、部分的に類似した表現が複数の文書に現れる<br />ことがあげられる。本研究では、この特徴に着目し、大量の文書から部分的に類似した表<br />現を効率良く列挙することによって、効果的な文書クラスタリング、文書フィルタリング、<br />文書要約を行う手法を提案する。<br /> 1章では本研究の背景と目的を述べる。また本研究で扱う局所的類似表現を事例を示<br />しながら定義する。<br /> 2章では、本研究の基礎となる文書類似度、近似文字列マッチングについての既存研究<br />を述べる。さらに、本研究で提案手法の応用を試みるスプログフィルタリングおよび多文<br />書要約の研究をサーベイする。<br /> 第3章で本論文の核となる局所的類似性を抽出する方法を述べる。本論文では、特に大<br />規模なテキストに対して効率よく局所的類似表現を抽出することに力点をおいており、<br /> (1)問題に応じて定義された部分文字列の類似度に基づいて接尾辞配列を作成し、<br /> (2)接尾辞配列を一回スキャンすることによって局所的に類似する部分文字群を列挙す<br />る方法を提案する。<br /> 第4章では、提案手法をスパムブログ(スプログ)のフィルタリング問題に適用し、そ<br />の有効性を示す。スプログは、他のブログやWebの文書に現れる語、フレーズ、文を組み<br />合わせることによって自動的に生成されることが多い。そのため、スプログは他の文書か<br />らのコピーコンテンツを多く含む。本研究では、スプログが持つこの特性に着目し、ブロ<br />グやWebの文書から構成される文書データベースを構築し、各ブログと文書データベース<br />中のテキストとの局所的類似性を抽出することによって、スプログのフィルタリングを行<br />うシステムを構築した。そして、システムのフィルタリング性能を測定するために、およ<br />そ25,000件のブログよりなる評価用のコーパスを作成し、フィルタリングシステムを評価<br />した。この評価実験により、提案手法がフィルタリング性能を示す代表的な尺度の一つで<br />あるF値において0.76程度の比較的高い性能を得られること、また、実用的な観点からは、<br />このフィルターを未知のタイプのスプログに対する検知器として用い、スプログのタイプ<br />ごとに専用のフィルターを構築することによって、より精度の高いスプログフィルタを構<br />成することが望ましいことを示す。<br /> 第5章では、本研究で提案した局所類似性検出法を複数文書要約の問題に適用し、その<br />有効性を示す。Web上に公開されるオンラインニュースでは、複数の新聞社より同種のニ<br />ュースが発信されており、また、同一の新聞社からも続報といった形で類似情報を含む記<br />事が発信される。そのため、ニュース記事には、他の記事と部分的に同種の情報が含まれ<br />ていることが多い。本研究では、この特徴に着目し、(1)これらのニュース記事集合よ<br />り局所的類似性を検出し、(2)抽出した局所的類似性に基づいて記事間の類似性を求め<br />ることによって、同一トピックに関する記事のクラスタを作成し、(3)各クラスタから<br />頻出する局所類似性を含む文を組み合わせて、記事クラスタの要約を作るシステムを構築<br />した。さらに、このシステムを複数文書要約システムの性能評価用コーバスの一つである<br />NTCIR4・TSC3を用いて評価し、冗長性の少ない要約を作るのに優れた手法であることを<br />示す。<br /> 最後に第6章で本論文の成果をまとめる。<br /><br /><b>Abstract</b><br /> Various kinds of information are currently accessible through the In-<br />ternet. Since the Internet contains a wide variety and a large amount of<br />information, an efficient and effective information acquisition mechanism<br />is strongly required. News articles are one of the most useful information<br />sources because they contain up-to-date information about various kinds<br />of topics, such as serious accidents, seasonal events, popular merchandise, <br />and services. Consumer Generated Media (CGM) data such as blog is<br />another example of important information, because it contains valuable<br />information concerning a customer's reputation and becomes an impor-<br />tant information source for detecting customers' needs and analyzing the<br />effects of various product promotions. Although the Internet consists<br />of a huge amount of information, it also contains a lot of duplicate in-<br />formation. The duplication is harmful when handling the information. <br />However, we could not know what and where there are beforehand. <br /> For example, suppose we search the Web pages relevant to a given<br />topic. Then, the search result may contain pages describing the same<br />thing. The duplication is a nuisance when trying to comprehend the<br />search results. It is also problematic from the aspect of computational<br />and network resources. By removing the duplication, we can make the<br />Internet a more easy-to-handle information source. <br /> Existing problem is that the duplication appears in configured levels, <br /><i>e.g.,</i> words, phrases, sentences, and paragraphs. This thesis describes a<br />new method for removing duplicated information. For this goal, we first<br />develop an algorithm to enumerate the locally similar information that is<br />defined as the substrings of any length that appear frequently in multiple<br />documents. Since there is a vast amount of substrings in documents, <br />in addition, the duplicated information may be described using different<br />expressions. We focus on the efficiency of the algorithm. We applied it<br />to two kinds of applications to evaluate the effectiveness of the developed<br />method. <br /> The first application is a multi-document summarization of news ar-<br />ticles. News articles are delivered from multiple news companies, and<br />we can read most of them on-line. So, news articles describing the same<br />event issued by the different companies exist. Furthermore, news articles<br />are frequently updated and parts of news articles are duplicated even if<br />they are issued by the difference company. In this case, Summary article<br />can be created if the new information "part" are enumerated. Our news<br />summarization system detects the locally similar information from news<br />articles, makes clusters of them describing the same event, and generates<br />a summary of each cluster. <br /> The second application is a splog filter. Splog is a blog that is gener-<br />ated automatically for commercial purposes. They are harmful for CGM-<br />content retrieval and analysis. Japanese splogs are often generated by<br />combining words and copied phrases appearing in various documents. As<br />a result, Japanese splogs contain copied words, phrases, and sentences . <br />These copied strings are regarded as locally similar information. <br /> This thesis exploits this feature of Japanese splogs and proposes a splog<br />filtering system using the proposed method of enumerating locally similar<br />information and shows that it is effective for filtering splogs. This is a<br />special case of local similarity because Splog do not have similarity but<br />the exact match. | |||||
所蔵 | ||||||
値 | 有 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf |