Googleが検索エンジンを刷新へ 新言語処理システム導入

「過去5年間で最大の飛躍」 英語版から随時展開
Open Image Modal
Engadget 日本版

Googleはその祖業の検索エンジンにおいて、新しい言語処理技術「BERT」を導入し検索結果を改善します。BERT導入は同社いわく「過去5年間で最大の飛躍を実現し、検索の歴史で最大の飛躍を遂げる」改良となるもので、まずは英語版のGoogle検索から導入し、他言語へも展開していく計画です。

「BERT(Bidirectional Encoder Representations from Transformers)」は機械学習ベースの新しい言語処理モデル。これまでの検索エンジンが苦手としていた「文脈にそった言葉の解釈」をより高精度に行うものとされています。GoogleはBERTの学習モデルを2018年にオープンソースとして発表しています。

「文脈にそった言葉の解釈」とは、複数の意味を持つ言葉があったとき、その言葉を含む文章全体をみて、適切な意味を選択するということ。たとえば「bank」という英単語には「銀行」と「土手」という意味がありますが、どちらの意味で使われているかは、単語を見ただけではわかりません。こうした多義的な言葉を含むフレーズに対して、BERTでは文章全体を参照して、意味を選択します。

BERTを検索に導入すると、話し言葉をそのまま検索エンジンに入れたときの精度が向上します。Googleは英語の検索エンジンにおいて、いくつかの例を紹介しています。

たとえば「Can you get medicine for someone pharmacy(薬局で誰かのために薬を買うことができますか)」という文章は、自分ではなく病にかかった家族や友人のために薬を買う方法を探すシーンが想像できますが、これまでのGoogle検索エンジンのアルゴリズムでは「someone」がキーフレーズだと認識できず、「薬局で薬を買う方法」と解釈した結果を表示していました。

Open Image Modal
Engadget日本版

また、「do estheticians stand a lot at work(エステティシャンは立ち仕事が多いですか)」という文章は、standに複数の意味がある上、at workは本来俗語であることもあって、これまでのGoogle検索では認識しづらい文章でした。こうしたフレーズもBERTでは文脈上必要の無い意味を除外して関連性の高い結果を表示できるとしています。

Open Image Modal
Engadget日本版

一方で、BERTモデルを適用しても苦手なフレーズも存在します。たとえば「what state is south of Nebraska,(ネブラスカの南にある州は?)」という文章では、BERTは考えすぎてしまい(カンザス州ではなく)南ネブラスカの小さなコミュニティのホームページを表示してしまいます。

米Wall Street Journalは、10月25日の発表会の中でコメントとして、BERTの推測の誤りを検出するため、「今後も数千人が手作業で検査に当たる」というGoogle 幹部のコメントを紹介しています。

BERTモデルは現在は英語版のGoogle検索のみで使われていますが、多言語展開に関して、興味深い特徴があります。Googleは、BRETでは1つの言語で学習したモデルを他の言語でも展開できると説明。英語で学習したモデルの一部を試験的に応用したところ、韓国語やヒンディー語、ポルトガル語など20カ国語の検索結果を大幅に改良することができたとしています。日本での展開については明らかにされていませんが、そう遠くない日に提供されるものと思われます。

Google検索は15年という長い歴史の中で世界の多くの地域の検索市場を席巻し、今や毎日数十億件の検索が行われるまでになっています。この検索アルゴリズムの変更はWebサイトの運営者やユーザーにとって大きな影響をもたらす可能性があります。

一方で、Googleはこれまで検索アルゴリズムについてブラックボックスとしてその仕組みを公に説明することはめったにありませんでした。もちろんBERTはGoogle検索の一要素にすぎませんが、Google検索の更新について発表会を開いてその仕組みを説明するという行為は、これまでのGoogleには見られなかった動きでもあります。Googleとしても、Google検索の透明性を向上する必要性を感じているのかもしれません。

(2019年10月28日Engadget 日本版「Googleが検索エンジンを刷新へ『過去5年間で最大の飛躍』」より転載) 

 

関連記事