最近、標準的な135Mパラメータのテキスト言語モデルを基に、視覚機能を備えたVLMトレーニングプロジェクトに取り組みました。Towards Data Science に関する記事として、そのプロジェクトの各段階と私が学んだことなどをまとめました。
この記事には、Q-Formersの仕組み、LMとVLMの間のアダプターがどのように学習されるか、データセットなどに関する私のノートがすべて含まれています。Gitリポジトリもオープンソース化しました。
同様のプロジェクトに取り組む人が学習資源として役立つように、共有します。
https://towardsdatascience.com/how-vision-language-models-are-trained-from-scratch/
[リンク] [コメント]

