Heron#

[日本語] | [English] | [中文]

Heronは、複数の画像/動画モデルと言語モデルをシームレスに統合するライブラリです。日本語のVision and Language (V&L)モデルをサポートしており、さらに様々なデータセットで学習された事前学習済みウェイトも提供します。

異なるLLMで構築されたマルチモーダルのデモページはこちらをご覧ください。(ともに日本語対応)

_images/heron_image.png

Heronでは、様々なモジュールを組み合わせた独自のV&Lモデルを構成することができます。Vision Encoder、Adopter、LLMを設定ファイルで設定できます。分散学習方法やトレーニングに使用するデータセットも簡単に設定できます。

_images/build_train_model.png

組織情報#

Turing株式会社

ライセンス#

Apache License 2.0において公開されています。

参考情報#

  • GenerativeImage2Text: モデルの構成方法の着想はGITに基づいています。

  • Llava : 本ライブラリはLlavaプロジェクトを参考にしています。

  • GIT-LLM