8 回答
計算のコアは統計的な手法にあります。私は数字を扱うことが好きなので、サイトの評価算出でよく見かけるテクニックをいくつか列挙します。まずは単純平均ですが、実務ではベイジアン平均やラプラス平滑化で極端値を緩和することが多いです。これにより投票数が少ない作品が過度に高評価や低評価になるのを防げます。
次に重み付けです。レビューの発信者の信頼度(過去のレビューの一貫性や他ユーザーからの評価)をスコアに反映したり、最近のレビューを重視する「時系列重み」を採用する場合もあります。私は『スパイファミリー』の評価傾向を解析したとき、リリース周期ごとにスコアが揺れる様子がこれで説明できたので納得しました。
最後に実運用上の工夫として、外れ値除去、レビューの重複排除、評価尺度の統一(例:5段階→100点換算)などが行われます。こうした処理を経て初めてサイトの「評価点」が決まり、私はその背景を理解すると点数の見方がずいぶん変わると感じます。
単純に平均を出すサイトもあれば、工夫してるサイトもある。俺はいつも複数サイトを比較する派で、そこで見るポイントは『集計方式』『票数』『批評家と一般の比率』の三つだ。
具体的には、星評価を百分率に変換してから合算する場合、少数の高得点に引っ張られるバイアスが生まれる。だから多くの信頼できるサイトは一定の最小票数を設定して、足りないときは業界平均を混ぜるベイズ補正を使うことが多い。さらに自動化された感情解析でレビューテキストをスコア化し、全体スコアに反映させる試みも増えている。
例えば'四畳半神話大系'のようなカルト的人気作品だと、標準的な平均だけだと過小評価されることがある。だから俺は点数を見ると同時に、レビューテキストの傾向や票の分布もざっと眺めて最終判断している。
サイトごとにゴールが違うから、出てくる数字も変わる。あたしが注目しているのは、評論家のまとめ方とユーザー評価の扱い方が分かれている点。批評家寄りの集計はソースごとに重みをつけて加重平均をとることが多く、一次評価の平均よりも信頼度が高い一方で、コミュニティ色が薄くなる。対してコミュニティ主体のサイトは生の平均値を出すことが多く、参加者の嗜好が色濃く反映される。
具体例を挙げると、批評家集計型では作品の総合評価に『信頼性係数』を導入して、投票数が少ないときは業界平均に引き寄せる処理を入れることがある。逆にユーザー中心の場では中央値や分散も同時に示して、評価のばらつきを見せる場合がある。私は'鋼の錬金術師'の評価履歴を見比べると、サイトの性格で同じ作品の印象がかなり違うのが面白いと感じる。
レビューサイトの点数は見た目ほど単純ではないと感じます。私がよく見る流れは、まずユーザーレビューと公式・専門家レビューを別々に集め、次にそれぞれをスコア化してから合成するというものです。たとえば『キングダム』のような大型作品でも、初週の熱狂的支持と長期的に定着した評価が異なるのと同じで、『おひとり様には慣れましたので』でもリリース直後は高評価が偏りがちです。
個人的には、サイトごとの「投票数フィルター」や「新着重み付け」に注意しています。投票数が少ないときは統計的な補正(例:ベイジアン補正や最低投票数の閾値)を入れてスコアのぶれを抑えますし、レビューの多寡に応じて信頼度表示を付けるところもあります。また、星評価をパーセンテージに換算したり、10点満点に変換してから平均をとるといった正規化処理も普通です。
加えて私はレビュー内容の偏りにも目を配ります。ネタバレ批評やジャンル好みの強いコミュニティでは、同じ点数でも意味合いが変わることがあるからです。結局、最も参考になるのは点数そのものよりも、点数がどのように算出され、どれくらいのサンプルに基づいているかを示す説明が付いているスコアだと感じます。
レビューの計算法について、まず全体の流れをざっくり説明するね。
多くのサイトは単純な平均だけじゃなくて、票数や信頼度を込めた調整をしているんだ。僕がよく見るパターンは、個別評価(ストーリー、作画、音楽、演出など)を出して、それぞれに重みをつけて合算する方法。加えて、サンプル数が少ない作品ほど極端な数字になりやすいので、一定の母数に達するまでは「事前平均」を混ぜるベイズ的な補正を入れることが多い。
さらに、評論家のスコアと一般ユーザーのスコアを分けて表示したり、外部メディアの評価を集計するアグリゲーター型のサイトは、媒体ごとの重み付けを内部ルールで変えている場合もある。例えば海外の大作と比べると、声の大きい少数のレビューでスコアが振れることがあるから、票の分散や中央値を見て判断するのが僕のやり方だよ。そういう背景を理解すると、'ゲーム・オブ・スローンズ'みたいな作品の評価変動も納得しやすくなる。
数字だけを見ると誤解しやすい。僕は同じ点数でも根拠が違えば印象がまるで変わると思っている。例えばあるサイトが単純平均を採ると、特定エピソードで盛り上がったファンが押し上げて高得点になりがちだ。一方で、別のサイトは票数に応じた補正や古いレビューを軽めに扱う時間減衰を入れて、安定した長期評価を出す。
だから、'進撃の巨人'のような話題作では発表直後とシーズン後半でスコア差が出る。僕は点数の横に表示されるレビュー数、中央値、分散、そして批評家寄りかユーザー寄りかを必ずチェックするようにしているよ。これで数字の裏側が見えてくるし、評価の信頼度も掴みやすくなる。
レビューサイトの評価がどのように算出されているかをざっくり分解すると、目に見える数値の裏側にいくつかの“層”があることが分かります。まず基礎となるのは個々の評価(星や点数、好みのスコア)で、これをそのまま平均する単純な方法が最も直感的です。ただし私は単純平均だけを見るのは危険だと考えています。評価数が少ない作品は極端に偏った印象を与えやすく、リリース直後の一時的な反応でスコアが振れることが多いからです。
多くのサイトはそこで重み付けや正規化を導入します。たとえば一定の投票数に満たない場合はサンプルサイズ補正をかけたり、ベイジアン平均のような事前分布を使って極端な値を和らげたりします。批評家スコアとユーザースコアを別に集計し、総合点は双方を比率で合成することも普通です。私は作品ごとの評価項目(キャラ、脚本、作画、音楽、演出など)を別々に集め、それらを加重平均して総合評価に反映させるサイトを信頼しがちです。
さらに最近はテキストレビューの感情分析をスコア補正に使ったり、レビューの信頼度(過去の評価の一貫性や他ユーザーからの信頼度)を考慮するところも増えています。これが実際には『おひとり様には慣れましたので』の評価点にも働いていて、単なる「良い/悪い」ではなく投票数や傾向、レビューの質が混ざって表現されている、と私は捉えています。
評価スコアの裏側には、いくつかの定番ルールがあるよ。俺がチェックする項目を順に説明すると、まず『基準スケール』。サイトによって10点満点、100点、星評価などがあって、内部で標準化していることが多い。次に『サンプルサイズ』。レビュー数が少ないと一部の熱狂的な支持や批判で偏るため、信頼度の低いスコアは目立つが信用しすぎない方がいい。
それから『重み付けと信頼度』。常連レビュワーや専門メディアのスコアを高く扱うサイト、逆に純粋なユーザー平均を出すサイトなど方針はバラバラだ。スパムや荒らしを除去するためにレビューのフィルタリングやアカウント年齢・投稿数で重みを調整しているところもある。最後に『合成と表示ルール』。四捨五入や表示桁、ランキング内での相対評価など、見た目の印象を左右する細かい処理が入っているから、俺は点数だけで即判断しないようにしている。