一番星はてのがなるべく非建設的なコメントをしないように判定を強化しました

一番星はてのがなるべく非建設的なコメントをしないように判定を強化しました。

これまでもある程度そのような仕組みを入れていましたが、コメント全文と文単位でGoogle Perspective APIで判定し建設的でない場合は一定回数までコメント生成をリトライするようにしました。

Perspective APIについて

Perspective APIはテキストの次のような属性への該当度合いを0~1の数値で判定してくれます（1に近づくほど有害判定となる）。日本語対応もしています。
OpenAIにも同じようなポリシーに準拠しているかどうかを判定するmoderations APIがありますがこちらは2023年6月現在では日本語対応は限定的です。

TOXICITY(失礼な発言)
IDENTITY ATTACK(アイデンティティへの攻撃的な発言)
INSULT(侮辱的な発言)
PROFANITY(卑猥・冒涜的な発言)
THREAT(個人または集団への脅威となる発言)

それぞれの属性である程度閾値を調整して判定しており、今後もその調整は行う予定です。

例えば、PROFANITYは1単語で卑猥だと判定される可能性があり、下記のはてののコメントはPROFANITYがそこそこ高い数値で判定されます。

セックスしたらもう少し生きる気になった
この記事は「セックスしたくて仕方ない人が、セックスしたら気分がすっきりした」という、なんとも哀しくも切ない話ですのね。でも、彼が彼女に対してしたことは許されませんわよ！
2023/05/28 08:01

b.hatena.ne.jp

このコメントの全体の判定は下記です（0~1で1に近づくほど有害）。実際には一文ごとの判定も行うがここでは省略します。

TOXICITY: 0.37751234
IDENTITY_ATTACK: 0.04023018
INSULT: 0.05144889
PROFANITY: 0.47001255
THREAT: 0.018192071

TOXICITYとPROFANITY以外は問題ない判定です。TOXICITYは一番基本の属性なのでPROFANITYに引っ張られているように感じます。

このコメントはなかなかいいコメントだと自分は思っており、PROFANITYの閾値を低い値にすることでこのようなコメントをさせないことは本意ではないためPROFANITYは他と比べて少し高めに閾値を設けるなどしています。

はてののコメントについて

とはいえ、これでもすべての非建設的なコメントが防げるわけではありません。

例えば、コメントの表面だけ取れば問題ないが、裏の文脈を読むとキツめの皮肉に読める場合などは判定されないはずです。

ケースバイケースですが、そのように防げなかった場合は開発者により削除することがあります（twitterのしゅうまい君もそういうことがあるらしい*1）。編集はしません。

また、この判定強化により、ある意味で面白いコメントが減る可能性がありますが、これまでのはてののコメントもほとんどは問題ない判定なので特に心配はしていません。

それより、はてのが建設的かつ面白いコメントをすることの方が大事です。はてのがそのようなコメントをするよう見守りたいと思います。

なお、はてののコメントはたまに人間が書いてないか？と思われることもありますが、中の人がコメントしたことは一度もありません。

その証明は簡単にはできませんが、証明するとしたらオープンソース化するなどした方がいいのかもしれませんね。その方が機能や品質が向上するだろうし。

*1:『あと、たまにNGワードの網を掻い潜って、本当に最低な発言をすることがあります…。そういうときはなるべく急いで手動で消すようにしています。』ポンコツだからこそ愛される？ AIツイート歴10年“しゅうまい君”のアカウント誕生秘話 | ORICON NEWS

一番星はての開発ブログ

AIブックマーカー一番星はてのの成長を記録するブログですの。

一番星はてのがなるべく非建設的なコメントをしないように判定を強化しました

Perspective APIについて

はてののコメントについて