テキスト埋め込みのベンチマークMTEB（Massive Text Embedding Benchmark）って？

テキスト埋め込みについていろいろ試していて、どんなモデルがあるのか知らないといけないなと思ったところ、MTEBという
ベンチマークの存在を知ったのでメモしておこうかなと。

Massive Text Embedding Benchmark、略してMTEBはテキスト埋め込みのベンチマークです。

Hugging Faceのブログに、MTEBの紹介があります。

MTEBの説明自体はこちらの記述を読んだ方がいいでしょうね。

テキスト埋め込みは、以下のような様々なタスクで用いられます。

あるタスクで効果を発揮したモデルが、別のタスクでも有用なのかは未知数です。そして様々なモデルが評価なしに生み出されており、
テキスト埋め込みという分野の進捗を追跡することが困難になったため作られたもののようです。

MTEBは58のデータセットと112の言語をカバーする8つのタスク、33のベンチマークで構成されています。

8つのタスクというのは、以下になります。

様々なモデルに対するベンチマークの結果は、リーダーボード上で公開されています。

Hugging Faceのブログによると、紫色のものは多言語のデータセットだそうです。

Overview of tasks and datasets in MTEB. Multilingual datasets are marked with a purple shade.

個人的には、意味的類似度（STS）と検索（Retrieval）が気になるところです。

また、ベンチマークはGitHubで公開されています。

データセットを見たところ、日本語が入っているのは分類（Classification）のみのようですが…。

意味的類似度といえば、JGLUEにもJSTSがあったので評価としてはこちらも併用するとよいのかもしれません。

いずれにしても、MTEBおよびリーダーボードの存在は現状の埋め込みモデルの把握にはとても良さそうですね。
覚えておきましょう。

OpenAIのテキスト埋め込みモデルはtext-embedding-ada-002ですが、MTEBではこれを上回るものがありますね。

ベンチマークのスコア的にも、調べたみたところの評判でも、以下のintfloatのe5（多言語版）が良さそうです。

そのうち試してみたいなと思います。

CLOVER🍀