ElevenLabs(イレブンラボ)とは？使い方まで完全解説！

2024年9月6日

この記事のまとめ

ElevenLabs(イレブンラボ)とは「AIを使用して自分の音声クローンを作成したり、音声の差し替えを行うことができる音声生成AIツール」です。音声の生成速度が速く、様々なAI音声を使用することができ、既存の音声ファイルや動画ファイルに含まれている音声の編集も可能であることから、AI音声ツールの中でも特に注目されています。

この記事では、音声生成AIツール「ElevenLabs(イレブンラボ)」について詳しく解説します。ElevenLabsの特徴や料金プラン、具体的な使い方まで網羅していますので、ぜひ最後までご覧ください。

弊社Walkersでは、“AIトレンドに乗り遅れたくないけど、具体的な活用法が見えない…”を解決するAI導入支援を行っています。補助金により1/3のコストで導入可能なので、ぜひAI活用にお悩みがある方はお気軽にご相談下さい。⇒AI導入支援サービスの概要はこちら

執筆者：山口鳳汰
ノーコード・AI開発会社「Walkers」のCMO。
AIサービス「Prompt Lab」運営。
その他、受託開発や教育など多数のAI事業に参画している。

運営会社：株式会社Walkers
ノーコード・AI専門の開発会社。
300件以上の開発/制作実績、200件以上の企業様を支援。
マーケティングやUI/UXと掛け合わせたサービス開発を得意としている。

執筆者：山口鳳汰
ノーコード・AI開発会社「Walkers」のCMO。
AIサービス「Prompt Lab」運営。

運営会社：株式会社Walkers
ノーコード・AI専門の開発会社。
これまでに300件以上の開発/制作実績、200件以上の企業様を支援。

クリックできる目次

ElevenLabs(イレブンラボ)とは？

ElevenLabsの実演動画

ElevenLabs(イレブンラボ)とは「AIを使用して自分の音声クローンを作成したり、音声の差し替えを行うことができる音声生成AIツール」です。

ElevenLabsを使用することにより、資料の読み上げをAIに自身の声で行ってもらうことや、自身の声質のまま外国語に音声を変換することが可能になります。

ElevenLabsの4つの特徴

【特徴①】使用できる音声データが豊富に用意されている

ElevenLabsでは、指定したAI音声にてテキストの文字起こしなどを行うことができます。

指定することができるAI音声は、自身でプロンプトを送信して生成するほか、自分自身の音声クローンを作成するなどして増やすことができます。
また、既存のElevenLabsユーザーが生成したAI音声は一部一般公開されているため、そちらのサンプル音声を確認し、気に入ったものがあればそれを使うことも可能です。

このように、ElevenLabsではAI音声を増やす方法は多く用意されているため、自分の好みに合った音声でテキストを読み上げてもらうことができます。

【特徴②】音声の生成速度が速い

ElevenLabsで音声を生成しようとした場合、5分程度の音声であれば約30秒から1分で生成が完了します。

このように比較的速いスピードで音声の生成が完了するため、多言語での動画制作を行う場合など、短期間で多くの音声データを生成しなくてはならない場合でも安心して使用することができます。

【特徴③】動画内に含まれる音声の差し替えができる

Dubbing Studioという機能を使用することにより、動画内の音声を他言語に変換することが可能です。

英語音声のみ対応していた電子マニュアルなどをアップロードすれば、日本語に瞬時に変換を行なってくれるため、日本語以外の言語が苦手な方の業務効率を大きく上げることができます。

【特徴④】ノイズ除去の精度が高い

Voice Isolatorという機能を使用することによって、ElevenLabsでは音声ファイルに含まれる雑音を除去することが可能です。

楽曲データなど背景で多くの音が流れているファイルをアップロードした場合でも、ボーカルの声のみ摘出することができたため、非常に高い精度で雑音除去が行われていることが確認できました。

動画コンテンツを作成した際に「動画内にノイズが含まれていた」ということが起こった場合でも、安心して対応できるものと考えられます。

ElevenLabsの4つの料金プラン

	Freeプラン無料	Starterプラン $5/月(月契約) $4.17/月(年契約)	Creatorプラン $22/月(月契約) $18.33/月(年契約)	Proプラン $99/月(月契約) $82.5/月(年契約)	Scaleプラン $1,320/月(月契約) $1,100/月(年契約)
テキスト読み上げ	10分/月	30分/月	100分/月	500分/月	11,000分/月
数千の音声&32言語での音声生成
音声の自動吹き替え
合成音声の作成
効果音の生成
ノイズ除去
自身の声を複製
音声クローンの作成
長時間の音声生成
自動翻訳される音声のサイト埋め込み
商用利用
APIの使用

ElevenLabsの主要な料金プラン項目

上記プラン以外にも、企業向けに「Enterpriseプラン」が用意されています。
料金や機能は話し合いの上での決定となるため、Scaleプランでは物足りないという企業様はElevenLabsまで問い合わせをしてみましょう。

ElevenLabsの使い方

STEP

以下のURLよりElevenLabsの公式サイトに移動

URL：https://elevenlabs.io

STEP

アカウント作成またはログイン画面に移動する

「GET STARTED FREE」または「TRY FOR FREE」をクリックして、アカウント作成画面に移動します。

既にアカウントを保有している場合は「LOG IN」をクリックし、ログイン処理を行います。その後ステップ4まで進んでください。

STEP

アカウントを作成する

「メールアドレス」または「Googleアカウント」を用いてアカウントの作成を行います。

アカウントの登録が完了すると、簡単なアンケートが表示されます。
アンケートの回答が完了したら、ElevenLabsを利用できます。

STEP

入力したテキストから音声を生成する

会員登録を終えるとElevenLabsの「TEXT TO SPEECH」機能の画面に移動します。

この画面では、入力したテキストを自身で選んだAI音声に読み上げてもらうことができます。

テキストを入力すると表示される「Generate speech」ボタンをクリックすると瞬時に生成が開始され、生成が完了すると画面下に音声の音声の再生バーが表示されます。
この音声バーの一番右側にあるダウンロードボタンをクリックすることによって、生成された音声をダウンロードすることが可能です。

音声に勢いなどをつけたい場合には「Settings」ボタンをクリックすることによって、生成する音声の波長をカスタマイズすることができます。

STEP

音声ファイル(.mp3など)に含まれる音声を変換する

「TEXT TO SPEECH」タブのすぐ右側にある「SPEECH TO SPEECH」では、既存の音声ファイルに含まれる音声を、他のAI音声に差し替えることができます。

この機能を使用するには「Upload audio」をクリックし既存の音声ファイルをアップロードするか、「Record audio」をクリックし音声をこの場で録音する必要があります。

音声ファイルアップロードまたは録音が開始されると瞬時に音声の生成が開始され、「TEXT TO SPEECH」と同様に画面下に再生バーが表示されます。
その再生バーから生成された音声データをダウンロードすることが可能です。

ノイズがほとんど含まれていない音声のみのデータは問題なく変換されますが、音楽など背景に様々な音が含まれている場合、正常に音声の変換が行われず、ノイズが増えてしまうことがあります。
限られたクレジットを多く消費することにつながるため、音楽のアップロードは行わないように注意してください。

STEP

高精度の音声を生成する

ElevenLabsのSpeech Synthesis機能のADVANSEDモード

ステップ4、ステップ5にて解説を行なった音声の生成や音声の変換ですが、滑らかな音声が生成されないことも時にはあるでしょう。

そのような場合には、画面右端に表示されている「SIMPLEとADVANSED」の切り替えボタンをクリックし、ADVANSEDモードに切り替えを行いましょう。

ADVANSEDモードでは、SIMPLEモード以上に細かな設定や使用する生成AIのモデルを選ぶことができ、今まで以上に滑らかな音声を生成することができます。

STEP

Speech Synthesis機能を使用して生成した音声一覧を確認する

ステップ4からステップ6にて6にて解説を行った音声生成や音声の差替機能はすべて「Speech Synthesis」という機能に含まれています。

このSpeech Synthesis機能を使用して生成した音楽は、「HISTORY」というボタンをクリックすることにより一覧表示することが可能です。

もしダウンロードを忘れてしまった音声データがあれば、この画面から保存を行いましょう。

STEP

音声生成時に使用するAI音声を追加する

ステップ4からステップ7にて行った音声の生成ですが、ElevenLabsのVoices機能を使用することによって、生成する元の音声を追加することが可能です。

画面左側のメニューからVoicesを選択し、表示される画面の右側にある「Add a new voice」をクリックすると音声の追加を行うことができます。

一番上に表示されている「Voice Design」では、
性別、年代、発音の3項目を選択肢の中から選択した後に、テキストでどのような音声を生成したいか入力することによって、AIがオリジナルの音声データを生成してくれます。

二番目と四番目に表示されている「Voice Cloning」では、
自身の音声データをアップロードすることによって、自身の声のクローンを生成することができます。
※この機能はStarter以上のプランを契約している方のみ使用できます。

三番目に表示されている「Voice Library」では、
既存のユーザーが生成した音声データを検索し、自身が利用できるように設定することができます。

これらの音声データの追加機能を使用することによって、生成できる音声の幅が大きく広がります。

STEP

効果音を生成する

「Sound Effects」を選択すると、効果音をAIで生成できるようになります。

画面中央上よりの「GENERATE」をクリックすると、テキストから効果音を生成でき、その右隣の「EXPLORE」をクリックすると既存の効果音を検索することができます。

生成または検索した効果音は、Speech Synthesis機能と同様に、生成または検索後に表示される再生バーからダウンロードを行うことが可能です。

ダウンロードを忘れてしまった場合には、画面上よりの「HISTORY」をクリックし、生成した効果音の一覧画面から個別にダウンロードを行いましょう。

STEP

長文のテキストから音声を生成する

ElevenLabsのProjects機能紹介動画

「Projects」を選択すると、長文のテキストから音声を生成することができるようになります。

このProjects機能では、テキストファイルなどをアップロードすることによって、長文のテキストを認識し、まとめて音声データを生成することができます。
ステップ4の「TEXT TO SPEECH」機能では5,000文字が認識できる最大の文字数のため、5,000文字以上のテキストをまとめて音声データに変換したい場合にはこの機能を使用しましょう。

※この機能はCreator以上のプランを契約している方のみ使用できます。

STEP

動画ファイルにナレーションや効果音を追加する

「Voiceover Studio」を選択すると、既存の動画にナレーションや効果音を追加できるようになります。

Creator以上のプランを契約を行なっていないユーザーの場合、特定の解像度の動画をアップロードすると「Videos with highest resolution are only available for Creator+ users.」というメッセージが表示され、アップロードが遮断されるため、注意が必要となります。

STEP

動画ファイルに含まれる音声の吹き替えを行う