This article at Wikipedia

検索エンジン

検索エンジンとは、狭義にはインターネットに存在する情報(ウェブページウェブサイト、画像ファイル、ネットニュースなど)を検索する機能を提供するサーバーやシステムの総称である。インターネットの普及初期には、検索エンジンとしての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索エンジンをサービスの一つとして提供するウェブサイトを単に検索エンジンと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。

狭義の検索エンジンは、ロボット型検索エンジンディレクトリ型検索エンジンメタ検索エンジンなどに分類される。 広義の検索エンジンとしては、テキスト情報の全文検索機能を備えたソフトウェア全文検索システム)等がある。 また、検索エンジンは、全文検索が可能なものと不可能なものがある。

検索エンジン(狭義)

ロボット型検索エンジン

与えられた検索式に従って、ウェブページ等を検索するサーバー、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードにANDOR等の論理条件を組み合わせて指定することができるものが多い。

ロボット型検索エンジンの大きな特徴の一つとして、クローラ(スパイダー)を用いることが挙げられる。このことにより、WWW上にある多数の情報を効率よく収集することができる。大規模な検索エンジンでは、30億ページ以上のページから検索が可能になっている。

収集したページの情報は、前もって解析し、索引情報(インデックス)を作成する。日本語などの言語では、自然言語処理機能が生成される索引の質に影響する。このため、多言語対応した検索エンジンの方が精度の高い検索が可能となる。

検索結果の表示順は、検索エンジンの質が最も問われる部分である。ユーザーが期待したページを検索結果の上位に表示することができなければ、ユーザーが離れてしまうからである。そのため、多くの検索エンジンが、表示順を決定するアルゴリズムを非公開にし、その性能を競っている。また、検索エンジン最適化業者の存在も、アルゴリズムを公開しない要因になっている。Googleは、そのアルゴリズムの一部であるPageRankを公開しているが、やはり、多くの部分が非公開になっている。

ウェブページの更新時刻の情報を用いて、新しい情報に限定して検索できるものや、検索結果をカテゴリ化して表示するものなど、特長のある機能を搭載しているものもある。また、検索結果と同じ題名の書籍がある場合、オンライン書店へのリンクを表示するなど、商業的な機能もある。

Google, AlltheWeb, Yahoo, Teoma, WiseNut, Inktomi, Infoseek, Naverなど。

ディレクトリ型検索エンジン

人手で構築したウェブディレクトリ内を検索するサーバー、システムのこと。

人手で構築しているため、質の高いウェブサイトを検索可能。また、サイトの概要を人手で記入しているため、検索結果の一覧から目的のサイトを探しやすいという特長がある。

しかし、検索対象となるサイトは人手で入力するため、検索対象となるサイト数が多くないという欠点がある。

WWWの爆発的な拡大によって、あらゆるウェブサイトを即時にディレクトリに反映させることが事実上不可能になり、現在では主流ではなくなっている。 このため、ディレクトリ型検索エンジンでは、検索にヒットするサイトが無かった場合、ロボット型検索エンジンを用いて結果を表示するような、併用型のものが多い。

Yahoo, Lycos, Open Directory Project, LookSmartなど。

検索エンジン(広義)

全文検索システム

与えられた文書群から、検索式(キーワードなど)による全文検索機能を提供するソフトウェア、システム。ウェブサイトに組み込んで利用するほか、スタンドアローンのコンピュータでも利用できる。

Namazu(日本語全文検索システム)など。

歴史

黎明期

日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。
ロボット型 • 千里眼 (サービス終了) • ODiN (サービス終了) • OCN Navi (TITAN) (サービス終了) ディレクトリ型 • NTT DIRECTORY (サービス終了) • Yahoo • Yahho (サービス終了) • JOY

Yahooの独走

日本では1996年にサービスを始めたYahooは簡素な画面構成と質の高いディレクトリで人気を集め、検索サイト首位の座を固め、 検索サイトの集客力を武器にニュース、オークションなどのサービスでポータルサイトとしての独走を始めた。

群雄割拠

1997年頃から、WWWの爆発的な拡大に伴って、ディレクトリ型のみであったYahooのウェブディレクトリの陳腐化が急速に進んだ。この頃、infoseekgooに代表されるロボット型検索エンジンが人気を集め始め、Yahoo!Japanはロボット型検索エンジンにgooを採用するなど、群雄割拠の時代になった。

Googleの台頭

1998年に登場したGoogleは、従来の検索エンジンがポータルサイト化へ進む流れに逆行し、独創的な検索技術に特化しバナー広告等を排除した簡素な画面と2000年Yahooのロボット型検索エンジンに採用されたことにより、急速に人気を集めた。2004年現在では、ウェブページ検索の世界シェアのトップに躍り出たと見られている。日本においては、Googleで検索することを特別に「ググる」と表現するほどになった。この状況に危機感を募らせたYahooは、2004年にロボット型検索エンジンを独自技術Yahoo!Search Technology(YST)(Yahooが買収したInktomiとAltaVista、Overture等の技術を統合した)に切り替えた。

課題

いわゆる「使用言語からみたインターネット人口の割合」はInternet Archiveを用いてEuro MarketingGlobal Reachから過去の月次資料を整理すると以下のような推移を辿っている。

1998年 1999年 2000年 2001年 2002年 2003年 2004年

12月 1月 4 - 7月 12月 2月 4 - 6月 7月 1月 6 - 10月 2 - 4月 7月
英語 58% 55% 51.3% 49.6% 47.6% 47.5% 45.0% 43.0% 40.2% 36.5% 35.8%
非英語 42% 45% 48.7% 50.4% 52.4% 52.5% 55% 57.0% 59.8% 63.5% 64.2%
1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。
2004年7月6日現在、WWW検索エンジンの代表格であるGoogleでは40億を越す4,285,199,774ウェブページが登録されている。検索エンジンの利用者はそれら40億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。
インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。




This article is from Wikipedia, the Free Encyclopedia. All text is available under the terms of the GNU Free Documentation License.


社会 • 社会政治経済産業交通教育歴史福祉医療環境環境問題市民活動平和軍事 • 芸術と文化 • 芸術文化言語宗教遊び趣味伝統芸能文学音楽美術演劇映画アニメ漫画建築スポーツゲームギャンブル食文化ファッションマスメディア出版新聞放送テレビラジオ • 世界 • 世界アジアアフリカオセアニア北アメリカ南アメリカヨーロッパ • 日本 • 日本北海道東北関東中部近畿中国四国九州沖縄 • 学問 • 学問文学哲学倫理学心理学社会学法学経済学数学物理学化学生物学地球科学医学工学 • 自然 • 自然宇宙元素気象災害海洋生物植物動物鉱物 • 技術 • 技術コンピュータネットワークエレクトロニクスバイオテクノロジー • 資料 • 索引年表365日地図世界各国関係記事人名一覧一覧の一覧