音声からブログへ！面倒な作業をAIで完全自動化する方法｜GASとAIツールの連携術

こんにちは！ AIを使った業務効率化や新しいチャレンジを発信している「AIで勘違いし何でも作ってみる部」です。

皆さんは、「AIがあれば、どんな面倒な作業も解決できるんじゃないか？」そんな風に考えたことはありませんか？私たちは、そんなちょっと前向きな「勘違い」を原動力に、日々AI活用の可能性を探求しています。

さて、今回のテーマは「音声からブログへ！作業を全部AIにやってもらう方法」です。

特に、Stand.fm（スタエフ）などで音声配信をされている方、あるいは音声メモを頻繁に取る方にとって、その内容をテキスト化し、ブログ記事やメルマガなどのコンテンツに展開するのは、非常に魅力的であると同時に、手間のかかる作業ではないでしょうか。

「この配信内容、文章でも残せたらもっと多くの人に届くのに…」
「毎回書き起こして、編集して、投稿して…正直、時間が足りない！」

そんな悩みを抱えている方も少なくないはずです。実際に、音声で記録した情報を元に記事を作成したり、メルマガを発行したりしている方もいらっしゃいます。しかし、そのプロセスには、

音声の書き起こし
文章の編集・整形
各プラットフォームへの投稿（下書き保存）

といった、複数のステップが存在し、特にツール間の連携やデータの受け渡しに、意外と時間と労力がかかっているのが現状です。

「書き起こしはAIツールでできるけど、それを編集してWordPressに入れるのは手作業…」
「ChatGPTで要約はできるけど、結局コピペが必要…」

この「ツール間のつなぎ目」は、まだ人が自分の手で作業していることが多いと思います。

もし、録音した音声ファイルを特定の場所に保存するだけで、AIが自動で書き起こして編集し、さらにはWordPressの下書きにまで保存してくれたら…？便利ですよね？実はAIツールをうまく連携させることで、この「音声 to ブログ下書き」の自動化が実現できました。

この記事では、私たちが実際に試行錯誤して構築した、Google Apps Script (GAS) をハブとして、Google AI Studio、ChatGPT、そしてWordPressを連携させ、音声ファイルからブログ記事の下書き作成までを自動化する具体的な方法とその効果について、詳しく解説していきます。

～手間と可能性のジレンマ～
音声コンテンツのテキスト化が重要な理由とは

近年、音声メディアの人気は高まり続けています。手軽に情報をインプット・アウトプットできるため、多くの人が配信者として、あるいはリスナーとして音声コンテンツに触れています。

音声配信者にとって、配信した内容は貴重な知的財産です。それを音声だけで留めておくのは非常にもったいない。テキスト化することで、以下のようなメリットが生まれます。

検索エンジンからの流入増加：ブログ記事にすることでGoogleなどの検索結果に表示され、新たなファン獲得につながります。
コンテンツの再利用：ブログ記事、メルマガ、SNS投稿など、多様なフォーマットで情報を再利用できます。
アクセシビリティ向上：耳の不自由な方や、音声を聞けない環境にいる方にも情報を届けられます。
情報のストック化：音声は流れやすいですが、テキストは後から参照しやすい情報ストックとなります。

しかし、前述の通り、このテキストにして複数の媒体に投稿するには大きな手間が伴います。

「もっと楽に、効率的にテキストコンテンツを作りたい…」その切実な願いを、AIツールの連携によって解決しようというのが、今回の取り組みの核心です。

GoogleAIStudioで作成したGASによる完全自動化フロー

私たちが構築した自動化フローの全体像は以下の通りです。

主役となるのは、Google Apps Script (GAS) です。GASを司令塔（ハブ）として、各AIツールやサービスを連携させます。

使用する主なツール・サービス

音声は、iPhoneのボイスメモなどで録音し、Google Driveに保存します。GASが自動化フローの中心として動き、Google AI Studioで高精度な音声書き起こしを行い、ChatGPTでテキストの編集・整形を行います。

設定やプロンプトの管理はGoogleスプレッドシートで行い、最終的な整形済みテキストはWordPressへ下書きとして保存されます。

自動化のステップ
GASを使った音声ファイル→書き起こし→サイト投稿の流れ

STEP

【Input】音声ファイルをGoogle Driveに保存

まず、配信した音声やメモした音声を、あらかじめ決めておいたGoogle Drive内の特定のフォルダに保存しておきます。GASは決めた時間に保存先のGoogleDriveの音声ファイルを探して自動で書き出すように指示がしてあります。

STEP

【Transcription】Google AI Studioで音声を書き起こし

GASは、保存された音声ファイルをGoogle AI StudioのAPIに送信します。Google AI Studioは、受け取った音声ファイルを解析し、高精度なテキストデータに変換してGASに返します。Google AI Studioは日本語の書き起こし精度も比較的高く、業務利用にも耐えうるレベルです。

STEP

【Editing & Formatting】ChatGPTでテキストを編集・整形

GASは、Google AI Studioから受け取った書き起こしテキストと、あらかじめGoogleスプレッドシートに記述しておいたプロンプト（指示文）を、ChatGPTのAPIに送信します。自分でプロンプトを変更することでブログの出来を自分のこのみに合わせることができます。

プロンプト例としては、「以下の書き起こしテキストを、ブログ記事として自然な文章になるように編集してください」「会話中のフィラー（えー、あのー等）を除去してください」「適切な箇所に見出し（H2、H3）をマークダウン形式で追加してください」「重要なポイントを箇条書きでまとめてください」「全体の文字数が多すぎる場合は、〇〇字程度になるように要約してください」などがあります。「最終的なアウトプットはマークダウン形式にしてください」と指定することで、SWELLなどのブログテーマに適した形式で整形されます。

ChatGPTは、プロンプトに従ってテキストを編集・整形し、マークダウン形式のテキストデータをGASに返します。プロンプトを工夫することで、望むアウトプット形式やトーン＆マナーに調整できます。

STEP

【Output】WordPressに下書き記事として自動保存

GASは、ChatGPTから受け取ったマークダウン形式のテキストデータを、WordPressのAPI（XML-RPCやREST API）を利用してWordPressサイトに送信します。送信時には、記事のタイトル（例えば音声ファイル名から自動生成）、本文、カテゴリー、タグなどを指定し、「下書き」ステータスで保存するように指示します。

こうして、WordPressの管理画面には、AIによって整形されたブログ記事が下書きとして自動的に作成されます。

連携の「鍵」となるAPIキー

この自動化フローを実現するためには、各ツール・サービスが提供するAPI (Application Programming Interface) を利用します。APIは、異なるソフトウェア同士が連携するための「接続口」のようなものです。

Google AI Studio API、ChatGPT API、WordPress APIなどが該当し、これらを使用するにはAPIキーという認証情報が必要です。これは各サービスに対して「このアクセスは許可されていますよ」と証明するための鍵のようなものであり、GASがAPIにアクセスする際に利用します。APIキーの取得方法や設定は、各サービスの公式ドキュメントを参照してください。

GASの役割の重要性

このフローにおいて、GASは単なるトリガー役ではありません。各APIを適切な順序で呼び出すオーケストレーション、サービス間で受け渡されるデータの加工・整形、そしてエラー発生時のハンドリング（例：書き起こしに失敗した場合の処理）など、全体をスムーズに動かす役割を担っています。

GAS自体はJavaScriptベースの言語ですが、簡単な処理であればChatGPTなどにコード生成を依頼することも可能です。実際に、私たちがこの仕組みを作る際も、一部のGASコードはGoogle AI Studioに相談しながら作成しました。

GoogleAIStudio→ChatGPT→Worpress
GASによる自動化の効果とメリット

この仕組みを導入することで、私たちは以下のような効果を実感しています。

作業時間の短縮と心理的負担の低減
コンテンツ作成への集中
低コストでの運用
情報発信スピードの向上と活用媒体の多角化

この自動化の仕組みを取り入れてみて、私たちは本当にたくさんの良い変化を感じています。たとえば、これまで数時間かけて行っていた「音声の書き起こし→テキスト編集→ブログへの投稿」という一連の作業が、今では音声ファイルをGoogleドライブにアップするだけで、ほんの数分で自動的に形になります。まるで魔法のように感じるほど、待ち時間がほとんどないのです。

また、地味に大変だった「コピペ作業」や「複数ツールを行き来するストレス」からも解放されました。作業がシンプルになることで、「やらなきゃ…」という心理的な負担がぐっと減り、自然とやる気もアップ。毎回の投稿作業がぐんと軽やかになりました。

この仕組みのおかげで、手間がかからなくなった分、本当に集中すべき「内容そのもの」にエネルギーを注げるようになったのも大きなメリットです。たとえば、話すテーマをじっくり練ったり、読者が喜んでくれそうな構成を考えたりと、創造的な部分に時間を使えるようになりました。

そして、導入コストがとても低いのも魅力です。Google DriveやGoogleスプレッドシート、GASは無料で使えますし、Google AI Studioも無料枠があります。ChatGPTのAPIだけ少し費用がかかりますが、10分程度の音声（文字数にして約4,000文字）を処理しても、1回あたりわずか6円ほどと、とても経済的です。

加えて、音声をすぐに記事にできるようになったことで、情報発信のスピードが圧倒的にアップしました。配信したその日に記事が下書きで仕上がっているというのは、これまででは考えられなかったことです。それに、ブログ記事としてきちんと文章が残るので、コンテンツとしての蓄積もしやすくなりました。

実際、私たちはこの仕組みを活用するようになってから、音声だけでなく、ブログ、メルマガ、SNSなど、さまざまな形での情報展開がしやすくなりました。一つの音声をきっかけに、複数メディアに展開できる土台が整ったという実感があります。

このように、作業時間の短縮だけでなく、ストレスの軽減や発信の質の向上、さらにはコスト面やコンテンツ展開の幅まで広がったのが、私たちが感じた自動化の大きな魅力です。少しの仕組みを整えるだけで、これほど日々の活動が変わることに、正直驚いています。

導入の際の注意点と、さらなる可能性（今後の展望）

この仕組みは非常に強力ですが、導入にあたっては以下のような注意点もあります。

初期構築には、GASのスクリプト作成、APIキーの取得・設定、WordPressとの接続など、ある程度の知識と時間が必要です。ただし一度設定すれば自動で稼働し続けます。

また、AIによる編集や書き起こしには限界もあります。専門用語や癖のある話し方では誤変換が起こることがあり、最終チェックと微調整は人間の目で行うべきです。

さらに、APIキーの管理には注意が必要です。漏洩すれば不正利用のリスクがあります。

今後は、WordPressだけでなく、noteやメルマガ配信ツール、X (Twitter)などへの展開も視野に入れています。加えて、Stable Diffusion APIやDALL-E APIなどの画像生成AIを使ってアイキャッチ画像を自動生成し、記事に自動添付する仕組みの構築も可能です。

最終的には、「1つ音声を録音するだけで、複数メディアへの最適化配信が自動で完了する」世界の実現を目指しています。