LOLGORITHM: Funny Comment Generation Agent For Short Videos

arXiv cs.CV / 4/14/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • LOLGORITHMは、短尺動画向けにプラットフォーム固有の文化・言語ノルムに沿った「本物っぽい」コメントを生成するための、モジュラーなマルチエージェント方式を提案している。
  • フレームワークは、(1)動画内容の要約、(2)動画分類、(3)意味検索(semantic retrieval)と“hot meme augmentation”を用いたコメント生成という3つの中核モジュールで構成され、6種類のコメントスタイルを制御可能としている。
  • YouTubeとDouyin向けに二言語で構築した3,267本・16,335コメントのデータセットと、機械評価に加えて大規模な人間嗜好評価(107名)により、ベースラインより一貫して優れることが示された。
  • 人間選好率はYouTubeで80.46%、Douyinで84.29%であり、アブレーションにより改善が特定のバックボーンLLM選定ではなくアーキテクチャの寄与によるものだと確認されている。

Abstract

Short-form video platforms have become central to multimedia information dissemination, where comments play a critical role in driving engagement, propagation, and algorithmic feedback. However, existing approaches -- including video summarization and live-streaming danmaku generation -- fail to produce authentic comments that conform to platform-specific cultural and linguistic norms. In this paper, we present LOLGORITHM, a novel modular multi-agent framework for stylized short-form video comment generation. LOLGORITHM supports six controllable comment styles and comprises three core modules: video content summarization, video classification, and comment generation with semantic retrieval and hot meme augmentation. We further construct a bilingual dataset of 3,267 videos and 16,335 comments spanning five high-engagement categories across YouTube and Douyin. Evaluation combining automatic scoring and large-scale human preference analysis demonstrates that LOLGORITHM consistently outperforms baseline methods, achieving human preference selection rates of 80.46\% on YouTube and 84.29\% on Douyin across 107 respondents. Ablation studies confirm that these gains are attributable to the framework architecture rather than the choice of backbone LLM, underscoring the robustness and generalizability of our approach.