2009-03-24
ニュース映像構造化のための視覚情報の役割解析とその応用に関する研究
A study on structuring news video based on visual information and its applications
言語 | en | |||||
言語 | jpn | |||||
佐野, 雅規
サノ, マサノリ
SANO, Masanori
総合研究大学院大学
博士(情報学)
複合科学研究科
17 情報学専攻
2009-03-24
2008
内容記述 | 昨今の放送と通信の融合により、様々な情報伝達手段が整備され、コンテンツの視聴ス<br />タイルも大きく変化してきている。放送局においても、従来の番組だけでなく、多種多様<br />で魅力的なコンテンツの制作が必要となってきており、放送済みの番組を再利用した新し<br />いサービス展開への模索が行われている。本論文は、この番組を再利用したコンテンツ制<br />作を、より効率的に進めるための支援技術について提案するものである。本提案技術の活<br />用場所は、放送局内だけにとどまらず、一般の家庭においても、ハードディスクレコーダ<br />の出現により規模は違うが同様な環境が生まれつつあり、適用することができる。これに<br />より、放送局には、番組を活用した新サービスを効率よく研究開発する環境を提供し、一<br />般家庭には蓄積番組を利用した新しい視聴スタイルを提供することができる。また、ビジ<br />ネス的な要素も取り込むことで、研究開発機関、サービス提供機関、ユーザの3者にメリ<br />ットがあるような環境構築を目指すものである。<br /> 第1章では、本研究の背景として、大規模な映像コンテンツ提供組織である放送局を例<br />に挙げ、昨今のコンテンツ制作環境について述べる。次に、本論文でニュース番組に着目<br />した理由を述べた後、ニュース番組の再利用の現状について、主に従来研究を中心に整理<br />を行う。そして、そこに存在する技術的問題点を明らかにする。<br /> 第2章では、蓄積したニュース番組を効率よく再利用するための共通基盤(フレームワ<br />ーク)としてEvenTankを提案する。このEvenTankは、研究開発の段階から、実際のサ<br />ービス提供までを、複数の機関が連携して作業を進められるよう、共通のテストベッドを<br />提供することが目的である。はじめに、関連研究として、既存のメタデータ規格や共通基<br />盤を取り上げ、それぞれの問題点を明らかにする。次に、これら既存技術をベースとし、<br />ニュース番組の効率よい活用のための仕組みを加えることでEvenTankを提案する。具体<br />的には、扱うデータモデルの変更とそのデータをやり取りするインタフェースの変更であ<br />る。そして、従来から行われている様々なニュース活用の研究が、このEvenTankにおい<br />て、脱着可能なモジュールとして実装可能になっていることを示し、本提案の有効性を確<br />認しつつ、その将来への拡張性と柔軟性についても確認する。<br /> 第3章では、ニュース番組活用の観点から、その映像をより適切に再利用するために必<br />要なメタデータについて提案する。はじめに、従来おこなわれてきた映像に対するメタデ<br />ータ付与について整理をし、適切な再利用のためには映像の役割に注目する必要があるこ<br />とを明らかにする。そして、この役割抽出のために、ニュース番組そのものの役割と、そ<br />の中での映像の役割について再考し、番組制作手法を考慮したアプローチを提案する。最<br />後に、実際のニュース番組を用いて、いくつかの映像の役割情報が、制作手法を考慮した<br />手法で抽出できることを確認する。<br /> 第4章と第5章では、第2章で提案するニュース番組再活用のための共通基盤の有効性<br />について実証することを第1の目的とする。その上で、ニュース番組の新しい活用例とし<br />て、第4章では時事に関するクイズの自動生成手法を提案し、第5章では時事に関するイ<br />ンタラクティブ・サマリの自動生成手法を提案する。どちらのコンテンツにおいても映像<br />や画像を再利用しており、第3章で提案した映像の役割に注目したメタデータの有効性に<br />ついても同時に検証を行う。<br /> 第4章において生成対象とするクイズは、ニュース番組の文字だけでなく画像も再利用<br />したクイズであり、ニュース映像が伝えようとしている「主被写体」に注目して自動生成<br />される。この画像付きクイズの生成手法については、3つのサブタスクに分割し、それぞ<br />れに対する工学的アプローチを提案する。そして、実際のニュース番組を用いて生成実験<br />を行い、各サブタスクヘのアプローチと、それを総合したアプローチについて評価を行い、<br />最後にEven Tankの枠組みの中でどのように実現しているのかについて検証する。<br /> 第5章で生成するインタラクティブ・サマリは、あるニューストピックについて、画像<br />もしくは映像付きのサマリを提供するものである。ユーザヘの表示として、伝えたいこと、<br />人物別、時系列の3つの表示方法を備え、注目したトピックに対し、どのような事が起こ<br />っていて、誰が関係し、どのような流れなのかをわかりやすく画像や映像付きで閲覧でき<br />るよう設計されている。本章において特に注目した問題点は、各ニュース項目を表現する<br />ための代表となる画像や映像、また文章について、どのように適切なものを選択するかで<br />ある。このために第3章で提案した映像の撮影ルールや、番組編集のルールなどを利用し<br />た役割に注目したアプローチを提案し、その有効性を確認する。<br /> 第6章は、本論文の成果をまとめる。本論文の成果は、コンテンツ制作を支援するため<br />に、蓄積された放送済みニュース番組を効率よく利用するためのフレームワークを提案し、<br />このフレームワークに沿った形で新しいサービスのコンテンツ生成実験を行い、その有効<br />性を示したことである。さらに、映像の適切な再利用を高めるために、その映像の役割に<br />注目すべきことを提案したこと、また、その自動抽出について、番組制作におけるルール<br />を利用した手法を提案し、新しいサービスのコンテンツ生成実験の中で検証を行い、その<br />有用性について確認したことにある。従って、本論文で提案した支援技術は、放送局をは<br />じめ、一般家庭においても、蓄積したニュース番組をより効率的に活用する共通基盤を提<br />供し、更に、映像の役割に注目したメタデータの抽出・活用を示したことで、今後の新し<br />いコンテンツの開発制作に大きな貢献をしたと考える。<br /><b>Abstract</b><br />Thanks to the integration of broadcasting and communication, a variety of meth-<br/>ods to transmit information have been created, and the styles of experiencing<br/>contents are also undergoing great changes. For broadcasters, there is the now the<br/>need to not just to produce conventional programs, but also to create diverse kinds<br/>of attractive related contents. They are seeking development of new services for<br/>reusing programs after the programs have been broadcast. In this thesis, we pro-<br/>pose an assistive technology to more efficiently advance the production of reusable<br/>program contents. The proposed technology is not limited for use in broadcast<br/>stations. It can be applied to general consumer use, thanks to the emergence of<br/>hard disk recorders. While the scale is different, the situation being able to store<br/>many programs and access them instantly, so the technology can be applied. The<br/>technology provides an environment for more efficiently researching and develop-<br/>ing new services to reuse programs for broadcasters, while offering new styles of<br/>viewing and listening to the new services for general households. By incorporating<br/>business considerations, we seek to create an environment that has benefits for<br/>R&D institutions, service providers, and users. <br/> In Chapter 1, as background of this research, we describe the current content<br/>production environment of large-scale video content providers, using broadcasters<br/>as an example. Next, we describe reasons for focusing on news programs, in this<br/>thesis. We then review the current state of reuse of news programs, with a focus<br/>on previous research, and clarify existing technological issues. <br/> In Chapter 2, we propose EvenTank, a common framework for efficiently reusing<br/>accumulated news programs. EvenTank was created to provide a common test bed<br/>so multiple institutions could collaborate from R&D to the delivery of actual ser-<br/>vices. First, for collaborative research, we discuss existing metadata specifications<br/>and common frameworks, and clarify problem points in each of these areas. Next, <br/>we propose EvenTank by adding a framework to the base of these existing technolo-<br/>gies in order to efficiently reuse news programs. Specifically, Eventank modifies<br/>the handling data model and the interface for exchanging the data. Next, we<br/>show that previous research on reusing various news contents can be implemented<br/>as removable modules in EvenTank. We test the effectiveness of the proposed<br/>framework, and confirm its expandability and flexibility. <br/> In Chapter 3, we propose metadata required to more appropriately reuse video<br/>from the standpoint of reusing news programs. We review the previous assigning<br/>of metadata to video, and clarify the need to look up the role played by a video<br/>footage for appropriate reuse. Next, to extract this role, we re-consider the role of<br/>a news program and the role of video footages within a news program, and propose<br/>an approach that takes into account the methods of program production. Finally, <br/>using an actual news program, we confirm that the role-based metadata of several<br/>video footages can be extracted with this method. <br/> In Chapter 4 and 5, the first goal is to experimentally prove the effectiveness of<br/>the common framework for reusing news program, as proposed in Chapter 2. Next, <br/>as an example of the new utilization of news programs, in Chapter 4 we propose a<br/>method for automatically generating a quiz related to current events. In Chapter 5, <br/>we propose a method to automatically generate an interactive summary of current<br/>events. For both of these contents, video and images are reused, so we also test at<br/>the same time the effectiveness of metadata that pays attention to the role played<br/>by video footages, as proposed in Chapter 3. <br/> The generated quiz in Chapter 4 reuses not only spoken text from the news<br/>program but also images. It is automatically generated by focusing on the principal<br/>object shown in a news video. The method of generating this image-based quiz<br/>is divided into three subtasks, and we propose engineering approaches for each<br/>of these subtasks. Next we carry out a test using an actual news program, and<br/>evaluate the approaches to each subtask and the overall approach. Finally, we test<br/>the implementation of the approaches within the EvenTank framework. <br/> The generated interactive summary described in Chapter 5 provides image and<br/>video-added summaries for news topics. Three methods of display - by subject<br/>to be conveyed, by human subjects, and by time - are shown to the user. The<br/>summary is designed to allow the user to view video footages and images that<br/>make it easy to understand a news event, the persons involved, and the flow of<br/>events surrounding the news. An issue of special importance here is how to select<br/>the appropriate representative image and video, as well as text, for each news<br/>topic. Therefore we propose an approach that utilizes the rules of capturing video<br />proposed in Chapter 3 and the rules of program editing, and test the effectiveness<br />of this approach.<br /> In Chapter 6, we organize the results of this thesis. To support the production<br />of contents, we tested a new service of generating contents according to the frame-<br />work we proposed for efficiently using stored, already-broadcast news programs.<br />The results demonstrated the effectiveness of this framework. Furthermore, to<br />increase the appropriate reusability of video, we performed verification during the<br />experiment on the new service's content generation to test the proposal of looking<br />up the roles of video footages and the proposed method of using program produc-<br />tion rules to automatically extract the roles. The results show the effectiveness of<br />these proposals. Based on these results, we believe that the assistive technology<br />proposed in this thesis is a major contribution to the development and production<br />of new contents in the future, not just for broadcasters, but also for general house-<br />holds. It accomplishes this by offering a common framework that utilizes more<br />efficiently accumulated news programs, and furthermore, by demonstrating the<br />extraction and use of metadata that describes the roles played by video footages. | |||||
