DX関連ニュースや事例、セミナー、コンサルティング会社のご案内。

イーロン・マスクが共同創設者と参加するOpenAI、音楽をつくる人工知能Jukebox発表。ビルボード上位を独占か。

オープンAI(OpenAI)は最近、音楽を作るジュークボックス(Jukebox)と呼ばれる新しいタイプの人工知能(AI)を発表した。

Jukebox AIは演奏や歌詞などに基づいて、サウンドを生成することができる。

イーロン・マスクが共同創設者として参加した独立したAI研究団体「OpenAI」リサーチチームは、圧縮されたオーディオクリップと多様な歌詞を訓練させ、AIを作った。ウォンオーディオクリップを使用して、モデルを訓練、モデルにオーディオを生成することができる機能を提供した。これは他の音楽生成アプリケーションを作成するために使用されるアプローチとは対照的である。他の音楽生成アプリケーションは、多くの場合、音符やピッチに関する情報が、実際の音声ではない音声ファイル(MIDIなど)に依存する。

研究チームは、コンボリューションニューラルネットワーク(CNN)を使用して、モデルを訓練し、オーディオを圧縮し、ニューラルネットワークが解釈できる形式にエンコードした。その後、コンバータを使用して圧縮オーディオを作成、データをオーディオ形式に変換するためにアップサンプリングした。

OpenAI研究者は、オーディオを不連続部分に分けて歌を1/128秒の長さのビット分割方式でオーディオの継続的な特性を扱った。AIモデルは歌のパターンを学び、そのパターンを再構成することができる程度に正確だった。

OpenAIが使用する技術は、「MuseNet」という会社で生産した古い音楽世代AIと、いくつかの共通点を共有します。MuseNetはMIDIファイルの訓練を通じて歌全体のメロディーに重点を置いて歌詞を作ることができなかった様々なスタイルで音楽を作成することができた。

逆にジュークボックスは、音楽と一緒に自分の歌詞を書くことができる。歌詞はOpenAI研究が共同参加し、特定のスタイルで歌詞を作成するようにモデルを案内する。Jukeboxシステムは「LyricWiki」でスクラップした歌詞の訓練を受け、120万曲のテキストとメタデータで構成され、教育データを使用した。

モデル歌詞を生成するため、研究者たちは、歌の特定の部分/セグメントに対応するテキストを分析し、約歌の持続時間までの歌詞を増やした簡単なヒューリスティックを使用しようとした。この単純なアプローチは、一般的に効果があったが、研究者たちは、歌詞が早ければ動作にエラーであり、私を発見した。この問題を解決するための歌でボーカルを抽出し、テキスト配列で歌詞の単語レベルの分析を得た。

その後、キー – 値ペオウルで音楽を歌詞にマッピングした層と一緒にエンコードした。その結果、歌詞とボーカルがかなり正確に一致した。この論文の著者はまた、ジュークボックスには、いくつかの制限があり、今後の研究は、AIの能力を向上させることが目標と述べた。

著者は、ブログで「Jukeboxは音楽の品質、一貫性、オーディオサンプルの長さとアーティスト、ジャンル、歌詞を調節する能力を一段階発展させた、人間が作った音楽とはかなりの違いがある。たとえば、生成された歌は、音楽の一貫性を示し、従来のコードパターンに準拠し、印象的なソロをフィーチャーすることができますが、繰り返されるコーラスのようなお馴染みの、より大きな構造は聞こえない」と説明した。

現在、このモデルは、特定のジャンルや特定のアーティストのスタイルで歌を作ることができる。エルビス・プレスリー(Elvis Presley)、ケイティ・ペリー(Katy Perry)、フランク・シナトラ(Frank sinatra)などの各スタイルの歌を生成することができる。

この記事は海外scimonitorsの記事をDX推進部が日本向けに編集したものです。