Google Cloud のSpeech-to-Textを動かしてみる

皆さんこんにちは、マツムラです。六月に入り今年も約半分が過ぎようとしています。梅雨の湿気や低気圧に負けないように頑張っていきたいと思います。

本記事ではGoogle Cloud のSpeech-to-Textを、GoogleColaboratoryで実行してみます。さらに、モデル適応機能も使ってみます。Speech-to-TextのAPIをPythonで叩いてみたい方や、追加機能を試したい方は是非ご覧ください。

続きを読む

Docker と WSL と VPN と格闘してみた!!!

皆さんお久しぶりです、最近も生成AIの大流行が続いていて、OpenAIやMicrosoft、Googleなど、多くの企業が様々なサービスを提供しています。私はその進展に追いつくのがやっと(おそらく追いつけていない)で、AIの仕組みにわくわくしつつも、頭がパンクしそうな日々を過ごしています。

今回は、社内で使用しているDockerに挑戦し、はまってしまった経験を備忘録として共有したいと思います。同じくはまってしまった人の助けになれば幸いです。

続きを読む

manim×Claude3で動画素材を大量制作する

 大規模言語モデルである「Claude3」のリリース日(2024年3月4日)から、はや1ヶ月以上が経ちました。GPT-5も2024夏くらいにリリースとのことで、生成AIの流行の波はまだまだこれから加速していきそうです!GPT-4にも負けず劣らずといった精度を誇るClaude3、業務では文章校正や分からないコードを教えてくれるメンターとして、プライベートでも話し相手代わりによく使っています。というところで、nヶ月振りにブログ執筆中の証拠です。書き出しを考え校正するのに何日使っているのだか……(´・ω・`)

 今回は、そのClaude3と数学アニメーションツールであるmanimというライブラリを使ってエフェクト素材や動画素材を沢山作ってみよう!という趣旨で進んでいきます。というのも、近頃Twitter……XでClaude3やGPT-4を使って動画生成をしてみた!というポストが流れてきていたのを見て、しっかり影響されました。映像がある分、生成AIの使い道として皆興味持ってくれたらいいな……!!!

続きを読む

AWSのAmazon Transcribeを動かしてみる

皆さんこんにちは、マツムラです。年度が変わり、新入社員も増え、明るい季節となりました。心機一転、今年は挑戦の年にしていきたいと思います。

本記事ではAmazon Transcribeを、GoogleColaboratoryでストリーミング実行してみます。さらに、カスタムボキャブラリーを適用して動かします。Amazon TranscribeのAPIをPythonで叩いてみたい方や、追加機能を試したい方は是非ご覧ください。

続きを読む

RAG で社内データを参照する Chat Bot 作ってみた!!(環境設定編)

はじめに

こんにちは!
株式会社エクス、アドバンスドテクノロジー部所属のクスノキです!

この会社に入社して丸二年が経ちました。お陰さまで、社内の様々な方と関わりを持つことができ、ようやく会社に馴染めたかなぁ…とか思ってます。

最近は AI 分野の進化が凄まじいので、それを追いかけるのに精一杯です。例えば、OpenAI が GPT-4 Turbo や GPT-4 Turbo with vision を発表したかと思えば、Google が Gemini を発表したり…と、生成 AI の激しい競争が続いていますね。そんな世の中の変化もありますが、このブログでのんびりと役に立つ情報を提供していけたらと思っていますので、引き続きよろしくお願いします!

続きを読む

音声認識AIモデル”Whisper”を動かしてみる

皆さんこんにちは、マツムラです。一気に冷え込み、PC排熱で暖を取り始める季節になりました。

本記事ではOpenAIより提供されている音声認識AIモデル”Whisper”を、GoogleColaboratoryで動かしてみます。またWhisperモデルを動かすだけではなくWhisperAPIの方でも音声認識をしますので、Whisperに興味ある方は是非ご覧ください。

続きを読む

RAG で社内データを参照する Chat Bot 作ってみた!!(概要説明編)

こんにちは!
株式会社エクス、アドバンスドテクノロジー部所属のクスノキです!

ChatGPT が発表されて以降、大規模言語モデル( Large Language Model; 本ブログでは以下 LLM )の研究が盛んに行われています。テレビなどの様々なメディアでも、ChatGPT という言葉を聞くことが増えたような気がします…。そんな ChatGPT に代表される LLM ですが、入力する文章に対して優れた出力が得られるようになったので、

  • 質疑応答
  • 文章要約
  • 翻訳
  • 文章校正

など、様々な用途で使われていますね!

一方で、現在でも LLM に問題点が多くあります。その中の一つに、最新の情報やクローズドな情報を取得できないという問題があります。例えば、「最も新しいアメリカの大統領は誰ですか?」と ChatGPT に聞いても、下記のような返答しかしてくれません…

続きを読む

今から始めるYOLOX

皆さんこんにちは、マツムラです。猛暑日が続き、PC排熱で部屋がより暑くなる季節になりました。

本記事ではGoogle ColabratoryでYOLOXを動かした後、一部改変を行い出力結果の表示を変更してみます。

これからYOLOXを触ってみたいという方も、サービスにYOLOXを利用したいという方も是非ご覧ください。

続きを読む

命令文を改善してChatGPTとBingAIにブログを書かせよう

おはようございます。我々のチームはクスノキさんが一昨年から入社、今年3月にはヒラタニ本部長が退職され、激動の数か月を過ごしている……わけでもなく、ワイワイと日々楽しく過ごさせていただいています。

本記事では、ChatGPTやBingAIなど裏側にAIを載せたチャットシステムを使っても、上手く回答が返ってこない、何が便利か分からないといった方に読んでいただきたい内容となっています。
また、ChatGPTやBingAIに質問をしたことがある、使ったことがある程度の方を読者想定としています。

続きを読む

【2022年AIモデル紹介】外観検査AIモデル PatchCore の紹介

こんにちは、クスノキ(クッスン)です。本記事が初投稿になります!今後、様々な記事を紹介できればと思っていますので、よろしくお願いします!

本記事では、外観検査AIモデル PatchCore を紹介します。最初に、PatchCore の特徴や実際のアルゴリズムを簡単に説明し、実際のAIモデル学習の結果も記載します。最後の部分では、アルゴリズムの理論的な説明に入るので、少し難しくなるかもしれませんが、最後まで読んでもらえると嬉しいです!

続きを読む