げろみ日記

自分用のメモみたいなもので人に見せることはあまり考えていません。適当に適当です。カテゴリつける気力ないので はてなの各グループのテーマ内容に合った日記は各自 日記内検索で見つけようw

正式作品名称の弾かれるmixiキーワード抽出

少し前からmixiで始まりましたキーワードランキング。これは各ユーザーのmixi日記から語句を抽出して、取り上げられるものが多い語句から何が話題になっているのかを判断し、ランキングにするというものです。しかし、日記に取り上げた者の少ない略称が載っていながら、それよりも数が数倍ヒットする正式名称がキーワード対象から外れるというおかしな現象も度々見受けられます。

昨夜フジテレビで放映された「時をかける少女」は日記検索で16708件ある中で、略称の「時かけ」は3分の1以下な4240件でした。にも関わらず、mixiキーワードランキングでは略称のみが取り上げられ、その結果、作中の語句・タイムリープが2位な中で、その語句が出てくる作品名のほうは語句より低い3位という不思議な現象が起きています。タイムリープを話題にした人は間違いなく、その語句の出てくる作品名も書いているのに順位が逆転しています。これは「時かけ」だけでなく他の色々な作品でも少なからず見受けられている現象です。


※この検索数は時間によって極端に変わります。しかし比率のほうはこれの場合はそうそう変わっていないかと思われます。


そこでmixiスタッフの日記を見てみました。

mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
ランキングの生成はコンピュータが自動的に行うようにしたわけですが、人間の言葉を理解するわけではないコンピュータにキーワードを判別させるのは非常に大変なのです。しかもmixi内の話題を把握してその適合度でランキングを作るなんて、計算機ワザではありません。
(略)
実際に集計してみると、特定の話題の語だけが上位を独占してしまって、「世の中のメジャーな話題を網羅する」という当初の企図が達成できないという壁にあたりました。そこで、同じ話題に属する語は相互にペナルティをかけることにしました。
(略)
とても精度が高いランキングを生成できているという自負があるのですが、その原因の第一はおそらくmixiの日記という良質なコーパス自然言語処理の対象データ)が利用できることにあると思います。(全文を読む)
開発者の日記を見ると色々と大変なようです。他のサイトでは普通にランキングにも載るものがmixiで弾かれてるのは、この相互ペナルティ部分によるものあるかもしれません。とはいえこれを外すと確かにとんでもない事になりそうです。
しかし、公平にするためにプログラムにした部分もあるというのに、数の多い正式名称が自然言語扱いで外され実情と変わるようでは本当に公平なのか疑問です。

対策としては、作品名のキーワード登録ぐらいは多少は人力も併用したほうが、より正確に近いものになるのではないでしょうか?


■関連 ※要mixiアカウント
mixi日記キーワードランキング(07月21日付)

[mixi機能要望]名前の間に☆などが入ってる物もmixiキーワードに入るようにして欲しい
[mixi機能要望]mixiキーワードランキングに正式名称が弾かれないようにしてほしい

[mixi日記]再び機能要望を出しました2007年07月23日05:45