· 

画像・対話・作曲…生成AI系スタートアップ多彩に

画像生成AI「Stable Diffusion」を使うツール「DreamStudio」=英スタビリティーAI(Stability AI)提供
CBINSIGHTS
2022年はコンテンツを自動生成する人工知能(AI)が注目された年だった。画像では英スタビリティーAI(Stability AI)の「Stable Diffusion(ステーブルディフュージョン)」や米研究団体オープンAIの「DALL-E 2(ダリ・ツー)」、対話ではオープンAIの「ChatGPT」などが無料公開され、その能力の高さに驚きが広がった。映像編集、要約、作曲など生成AIを活用した先進的なスタートアップのサービスをまとめた。
日本経済新聞社は、スタートアップ企業やそれに投資するベンチャーキャピタルなどの動向を調査・分析する米CBインサイツ(ニューヨーク)と業務提携しています。同社の発行するスタートアップ企業やテクノロジーに関するリポートを日本語に翻訳し、日経電子版に週2回掲載しています。

生成AIの分野はここ数カ月で飛躍的進歩を遂げ、世の中の期待も一気に高まっている。

生成AIは、AI技術と全く新たなコンテンツを生成するアプリケーションからなる。自然な言葉からプログラミング言語を生成したり、2次元(2D)画像から3D素材を作成したり、台本に基づいて人間そっくりの音声をつくり出したりする。企業にとっては設計の試作などクリエーティブな作業の強化や効率化ができる。例えばファッションブランドが外部人材を雇わずにモデルを生成できるようになるなど、コスト削減にもつながる。

生成AIの飛躍的進歩をもたらしたのは、ここ10年のAI分野の数々の進化、特にテック大手やAI研究団体の米オープンAIによる研究だ。

2014年に画像生成モデル「GAN(敵対的生成ネットワーク)」が提供を開始し、大量の「ディープフェイク(偽)」映像や画像が生まれた。その後強力な言語モデルが発表され、文書の作成や理解が飛躍的に向上した。そして22年には「雪の中で空手をしているジャックフルーツ」などの文書を打ち込むと、リアルなイメージを生成できるマルチメディアモデルが登場した。

生成AIの用途はメディアや娯楽にとどまらない。スタートアップは今やこれらの技術を特許出願書類の一部の自動作成、新しいたんぱく質や薬の設計、次世代の検索エンジン、ビルの設計、仮想世界やゲームの体験向上などに活用している。

さらに、オープンソース(無償公開)のツールやAPI(アプリケーション・プログラミング・インターフェース=システム同士が相互に連携するための技術仕様)が利用できるようになったことで、この市場に参入するスタートアップが急増している。米ベンチャーキャピタル(VC)セコイア・キャピタルはこのほど、生成AIに関する詳細なリポートを発表し、109の生成AIスタートアップとツールからなる市場の状況を図に示した。

この記事ではCBインサイツのデータベースを活用し、セコイアのリポートに記載されていない生成AIスタートアップを発掘した。そしてゲーム、教育、医療、小売り、法律などの業界を含む45の分野で生成AIの用途開発に取り組むスタートアップ250社についてまとめた。(この日本語翻訳版では、全45分野のうち24分野についての説明を掲載。CBインサイツの英語の原文では全45分野を解説)

視覚メディア生成

上の図で最大のカテゴリーは視覚メディア(映像や画像、3Dアニメの生成など)で、80社以上に上る。

着実なペースでのモデルの開発、広範囲に及ぶオープンソースのツール、APIによるアクセス拡大がこの分野のイノベーション(技術革新)に寄与している。例えば、11月にはオープンAIの画像生成AI「ダリ(DALL-E)」のAPIのベータ版が提供された。オープンAIは「このテクノロジーを使えば、開発者はものの数分でアプリケーション開発に着手できる」と強調した。

スタートアップ各社は生成AIを活用し、非代替性トークン(NFT)からリップシンク(口パク)動画や顔を入れ替えた動画、企業向けアバター(分身)、メタバース(仮想空間)向けの本物そっくりの人間まで様々なものを生成している。

画像&NFT:AIを活用して文書から画像やアート作品、NFTをつくる企業。

22年7~9月期に発表されたばかりの画像生成AI「ステーブル・ディフュージョン(Stable Diffusion)」は、独ルートヴィヒ・マクシミリアン大学ミュンヘン校が英スタビリティーAIと共同で開発した。スタビリティーAIは22年10月のシードラウンドで1億100万ドルを調達し、企業価値の評価額を10億ドルとした。米ミッドジャーニー(Midjourney)や米クレヨン(Craiyon)などもこの分野の主な企業だ。ミッドジャーニーはジェスチャー入力技術を開発した米リープ・モーション(Leap Motion)の創業者、デビッド・ホルツ氏が共同創業した。

文章から画像を生成するツールは人気になりつつあるため、他の分野の企業も自社の中核製品に加えてこうしたツールを手掛けるようになっている。消費者向けSNS(交流サイト)アプリやツールを開発するイスラエルのライトリックス(Lightricks)、写真・動画編集プラットフォームの米ランウェイML(RunwayML)がその主な例だ。

3D素材:AIを活用して2D画像から3Dの場面や物体をつくる企業。この技術は小売り向けの双方向の3D商品カタログ、ゲーム業界向けの3D素材、仮想世界の3D物体などの生成に使われる。

このカテゴリーの企業の資金調達と技術の商用化は初期段階にとどまる。例えば、エストニアのアルファAR(AlphaAR)は22年3月、シードラウンドで80万ドルを調達した。同社は米エヌビディアや高級ブランド世界最大手、仏LVMHモエヘネシー・ルイヴィトンと提携しているとされる。

リップシンク(口パク)&パーソナライズド動画:視覚ダビング、顔のクローン作成、顔の再現など顔や体を合成する様々な技術の開発に取り組んでいる企業。

シードステージの英フローレスAI(Flawless AI)は、吹き替え言語に合わせて映像の俳優の口の動きを変える映画向けの視覚ダビングツールを手掛ける。

米アクセラレーター、Yコンビネーターの出資を受けている米Tavusは一人ひとりに合わせたセールス動画を生成する。ある顧客向けに作成した動画を、顔や声のクローン技術を活用して他の顧客に合うよう個別化する。

合成による匿名化:プライバシーを守り、欧州連合(EU)の一般データ保護規則(GDPR)などの規制に対応するため、写真や映像の人物の顔をAIで生成した本物のような顔に置き換える企業。

ドイツのブライターAI(Brighter AI)は22年6月、ポルトガルのArmilar Venture Partnersが主導したシリーズAのラウンドで資金を調達した。同社の技術は顔の匿名化や、プライバシーを守りながら自動運転車を訓練するための車のナンバープレートの匿名化にも活用されている。

トルコのシントニム(Syntonym)は21年、同様の技術の開発資金としてシードラウンドで40万ドルを調達した。同社の技術では動画の人物の顔を匿名化しても、表情や大体の年齢、性別などの特徴は維持できるという。

本物そっくりのディープフェイク映像:アーティストや著名人のディープフェイク映像など、超リアルなデジタルヒューマンを開発している企業。

例えば英メタフィジック(Metaphysic)は21年、米国人俳優トム・クルーズ氏にそっくりなディープフェイク動画を制作して話題になった。同社は21年12月のシリーズAで、米8VC、米セクション32などから750万ドルを調達した。米ハイパーリアル(Hyperreal)は大スターのタレント事務所に自社の技術を「デジタル素材」として売り、メタバースで事務所の収入源にする可能性をもたらしている。同社は22年7月、HBAR財団から資金を供与された。

写真&映像編集ツール:様々な後処理、編集、画像処理作業で生成AIを活用する企業。昔の写真の画質向上、写真の背景の削除や変更、修復(例えば、画像の物体を削除してそのスペースを自動で埋める)などがある。

イスラエルのブリアAI(Bria AI)は写真に写っている人の顔の表情や雰囲気を変えたり、静止画像を動的な場面にしたりする。22年10月のシードラウンドで1050万ドルを調達した。

米ニューヨークに拠点を置くランウェイMLはモーショントラッキング(動きの追跡)や修復、動画の文字起こし、文書から画像の生成など総合的な後処理、動画編集メディア生成ツールを提供する。米ラックスキャピタルの出資を受けている同社は21年12月のシリーズBで3500万ドルを調達した。

文書生成

米グーグルは18年、自然言語処理(NLP)と自然言語理解で飛躍的進化を遂げた言語モデル「バート(BERT)」の提供を開始した。同時期にはオープンAIも、今や広く利用されている文書生成AI「GPT」シリーズを投入した。

言語モデルの性能はその後さらに向上し、感情分析や翻訳、読解力などの飛躍的進歩をもたらしている。スタートアップや企業は今やAPIのおかげでこの技術に簡単にアクセスできる。

ここではこうしたモデルを活用して文書の要約、ストーリーの生成、マーケティングコンテンツの自動化などを手掛けるスタートアップを取り上げる。

SNS&マーケティングコンテンツ:生成AIを活用してマーケティングや広告のコピー、ブログ、電子商取引(EC)の商品の説明などを書く企業。AIを活用したコンテンツ記述の分野は特に利用が急拡大しており、ここ数カ月で新たなユニコーン(企業価値が10億ドル以上の未上場企業)が誕生したり、企業の統合が相次いだりしている。

例えば、米ジャスパー(Jasper)は22年10月、米ベッセマー・ベンチャー・パートナーズや米インサイト・パートナーズから1億2500万ドルを調達し、企業価値が15億ドルになった。ジャスパーのAIはコピーを作成し、これを25以上の言語に翻訳できる。同社は最近、文書生成に加えて画像生成ツールの提供も開始した。

米コピースミス(Copysmith)は22年10月、同業の米フレーズ(Frase) と米ライター(Rytr)を買収し、米コピーライター(Copyrytr)として生まれ変わった。

営業メール&売り込み:営業チーム向けにメールの自動補完や売り込みメッセージの作成を手掛ける企業。この分野のスタートアップの大半はアーリー(初期)ステージか、株式発行を伴う資金調達をまだ実施していない。

この分野で最も調達総額が多いのは米アウトプレイ(Outplay)だ。同社はセコイア・キャピアル・インディアや同社のアクセラレーター「サージ」から900万ドル以上を調達している。2位はフィンランドのフローライト(Flowrite)で、シードラウンドでフィンランドのライフライン・ベンチャーズや独プロジェクトAベンチャーズなどから500万ドル以上を調達した。

カスタマーサポート:カスタマーサポートの対応を自動でこなす企業。

調達総額が9000万ドルを超える米フォアソウト(Forethought)はこのほど、カナダのAI研究機関ミラ研究所と提携した。フォアソウトのAIツールは問い合わせメッセージの重要度を判定し、対応を判断し、ユーザーの意図や感情を読み取る。

自由な会話ができる対話AI:ユーザーと自由な会話ができるチャットボットを開発している企業。SNSアプリを手掛ける企業もあれば、娯楽やゲーム、カスタマーサービス向けの対話AIを開発する企業もある。

米キャラクター・ドット・AI(Character.AI)のツールでは、架空のイーロン・マスク氏や物理学者の故アルバート・アインシュタイン氏などのキャラクターと自由にチャットできる。現時点ではベータ版だが、教育やゲームなど様々な分野に用途を拡大する構えだ。

一方、米インセンティバイ(Incentivai)の「クイックチャット(Quickchat)」はオープンAIの文章生成AI「GPT-3」を活用し、カスタマーサポートの対話AIや、AI会話パートナー「エマーソン(Emerson)」を手掛ける。

文章の要約

AIを活用して大量のコーパス(文書データ)を読み込み、質の高い要約を提供する企業。

・顧客の声:様々なソースの顧客のフィードバックデータを分析し、商品開発やカスタマーサポートチームに要約を提供する企業。米バイアブル(Viable)は要約のほか、自然な言葉で質問すると顧客データセットを調べて回答するサービスも提供している。同社はシードラウンドで1100万ドル近くを調達している。

・通話記録の分析:企業や顧客の通話を文字に起こし、主なポイントや質の高い要約を作成する企業。米アセンブリーAI(Assembly AI)は音楽配信のスポティファイ・テクノロジー(スウェーデン)、検索エンジンの仏アルゴリア、米メディア大手NBCユニバーサルなどを顧客に抱える。22年7月にはシリーズAのフォローオンで3000万ドルを調達した。

音声&音響生成

音声や音響生成は他のタイプのメディアと同様に、テック大手によるトップダウン型の研究の恩恵を受けている。グーグル傘下の英ディープマインドは早くも16年に、文書から人間に近い音声を生成するAI「ウェーブネット(WaveNet)」の提供を開始した。中国インターネット大手の百度(バイドゥ)は18年、音声のクローン作成と合成に関する論文を発表した。

音響AIは音声を合成するだけでなく、曲も作る。オープンAIは19年に作曲AI「ミューズネット(MuseNet)」、20年に同「ジュークボックス(Jukebox)」を発表した。

ここではAIを活用して人間そっくりの合成音声、追加の音声を生成する音声クローン、サウンドスケープや音楽の作曲を手掛ける未上場企業を取り上げる。

・音声合成&クローン作成:メディアや出版などの業界向けに合成のAI音声や、文書に基づく吹き替え音声、実際の人物の音声クローンを生成する企業。

米アレン人工知能研究所からスピンアウトした米ウェルセイドラボ(WellSaid Labs)の調達総額は1200万ドルに上る。同社のAI吹き替え音声はe-ラーニング、広告、ドキュメンタリー番組のナレーションに使われる。一方、音声・動画編集ツールの米ディスクリプト(Descript)は19年にカナダの音声合成スタートアップ、ライラバード(Lyrebird)を買収し、現在は音声クローン生成サービスを提供している。ディスクリプトは22年10月、オープンAIなどから5000万ドルを調達した。

音声編集ツールの米ポッドキャッスル(Podcastle)は21年10月、シリーズAでAI開発の世界的権威であるアンドリュー・ング氏のAIファンドなどから700万ドルを調達した。同社は「ボイススキン」と呼ばれる合成音声や、文書に変更を加えて音声を編集できる機能を手掛ける。

作曲:AIを活用してゲームや映画、音楽などの業界向けに様々なジャンルやムードの音楽やサウンドを生成する企業。

音楽生成・検索ツールを運営するオーストラリアのスプラッシュ(Splash)は21年11月、シリーズAで米コースラ・ベンチャーズ、米アマゾン・アレクサ・ファンドなどから2000万ドルを調達した。同月には米AiMiもシリーズBで米ファウンダーズ・ファンドや米グレート・マウンテン・パートナーズから2000万ドルを調達した。ユーザーが「ステム(幹)」と呼ばれる様々な音源をAiMiにアップロードすると、AIはこれを様々な形でミックスして作曲する。

コード(プログラム)生成

アルゴリズム(計算手法)は今や自然な言葉による指示をプログラミング用語に変換してくれる。これはソフトウエア開発の新たな時代の到来を示している。

ソフトウエア開発支援ツールの米ギットハブとオープンAIは21年6月、AIプログラミング機能「ギットハブ・コパイロット(GitHub Copilot)」の提供を開始した。コパイロットはギットハブの公開データで学習し、英語のコメントに基づいてコードを作成する。グーグルのディープマインドは22年2月、競技プログラミングレベルの複雑な問題で能力を示したコード生成AI「アルファコード(AlphaCode)」の提供を開始した。

ここでは、コパイロットなどのツールを活用してコマンドラインのタスクやウェブサイト開発、コードのドキュメント作成を自動化している未上場企業を取り上げる。

コード補完:ソフトウエア技術者やプログラマー向けにコードの提案や自動補完をするツールを開発している企業。

イスラエルのタブナイン(TabNine)は22年6月、コースラ・ベンチャーズ、米クアルコム・ベンチャーズ、米サムスンNEXTなどから1550万ドルを調達した。コードのラインや機能をまるごと自動補完するほか、自然な言葉で書かれた文書をコードに変換する機能も提供する。

文書からコードを生成:英語のコマンドをデータベースのクエリ(処理要求)に変換し、技術に詳しくないユーザーでもデータサイエンス部門に頼らずに組織のデータにアクセスし、活用できるようにする企業。

例えば、Yコンビネーターの22 年夏のプログラムに参加したインドのマヤラボ(Maya Labs)は、「15日前に大きな動きがあったユーザーをSQL(データベースを操作するための言語)から取り出す」「対象ユーザーにカスタマイズされたメールを送信する」などの論理的な命令文を入力すると、このタスクを自動で実行するシステムを手掛ける。

フランスの公的投資銀行BPIフランスは21年11月、パリに拠点を置くaskR.aiのシードラウンドに出資した。askR.aiは企業の業務関連データとチャットでやりとりできるインターフェースを開発している。

コマンドライン(文字列の入力による操作)の自動化:開発者向けの開発支援ツール、特にAIを活用したコマンドラインの自動化に取り組む企業。

米ワープ(Warp)はオープンAIのエンジン「コーデックス(Codex)」を搭載したターミナルを手掛ける。コーデックスは自然な言葉で書かれた文書をコードに変換するために開発されたシステムで、ワープは自然な言葉による検索を、シェル(入力内容を実行するためのプログラム)・コマンドに変換する。ワープは22年のシリーズAで米リンクトインのジェフ・ウェイナー会長、米セールスフォースのマーク・ベニオフ最高経営責任者(CEO)などの投資家から1700万ドルを調達した。同じくオープンAIのコーデックスを活用している米フィグ(Fig.io)もシードラウンドで米ゼネラル・カタリストやYコンビネーターから出資を受けている。

業界特化型の生成AI

ここでは生成AIを活用してゲームや小売り、ヘルスケアなど業界に特化した用途を開発している企業を取り上げる。

ゲーム&メタバース

AIを活用して文書からアドベンチャーゲームや仮想世界、コンピューターが動かすゲーム内のキャラクター「NPC(ノンプレーヤーキャラクター)」を設計する企業。

・テキストアドベンチャー:米ラチチュード(Latitude)はプレーヤーが入力した文書に基づき、AIが自由にストーリーをつくるアドベンチャーゲーム「AIダンジョン(AI Dungeon)」を開発している。同社はシードラウンドで400万ドル以上を調達した。この分野には米スーパーフラジャイル(SuperFragile)や米ノベルAI(Novel AI)などのアーリーステージ企業も含む。

・仮想世界:仮想世界での3Dの物体や場面、アニメーションを生成する企業。米オーパス(Opus)は文書から動画素材を生成し、米プロメシアンAI(Promethean AI) とオーストラリアのプロセジュラル・ワールズ(Procedural Worlds)は仮想の風景や場面、地形を作成する。

・ビデオゲームのNPC:生成AIを使ってビデオゲームのNPCを開発し、より没入感の高いゲーム体験を生み出す企業。例えば米インワールドAI(Inworld AI)は22年10月、米エピック・ゲームから資金を供与された。その数カ月前にはシリーズAで米インテル・キャピタル、米マイクロソフト傘下のVC米M12 、米クライナー・パーキンス (旧クライナー・パーキンス・コーフィールド・アンド・バイヤーズ)などの著名投資家から5000万ドルを調達した。

教育

AIを活用して文書の文脈を理解したり、生徒が解答を見つけられるよう支援したり、生徒のためにクイズやアンケートを自動で作成したりする企業。

・テスト&クイズ作成:宿題を分析し、クイズや質問を自動的に生成する企業。この分野の企業はアーリーステージで、現時点ではスイスのスマーテスト(Smartest)だけが新株発行を伴う資金調達を果たしている(20年に100万ドルを調達)。米Questgenも教育機関や社員研修向けのAIクイズ生成ツールを開発している。

・個人学習ツール:米エクスプレインペーパー(Explainpaper)はユーザーが学術研究論文をアップロードすると、AIを活用して分かりづらい段落を示し、説明する。一方、米フライデー(Friday)は生徒が質問すると正答を見つける対話AIを開発している。

法律

判例検索、要約、特許出願書類の作成によって弁護士や企業の法務部門を支援するツールを開発している企業。

・特許出願書類の作成:18年にレクシスネクシス・リーガルテック・アクセラレーターを卒業した米スペシフィオ(Specifio)は、「特許クレーム(特許請求の範囲)」から出願書類のドラフトを作成する。米パテントパル(PatentPal)は特許クレームからフローチャートや図表、要約を作成する。

・判例検索&要約:判例に関する情報を検索し、ドラフト作成を支援するAIツールを手掛ける企業。米ケーステキスト(Casetext)は米キャンバス・ベンチャーズ、米ユニオン・スクエア・ベンチャーズなどから6900万ドル以上を調達している。同社の製品「コンポーズ(Compose)」はGPT-3を活用してドラフトを作成する。イスラエルのダロー(Darrow)は公開データから法律違反(プライバシーや健康関連の違反など)をチェックし、弁護士の訴訟を支援する。