ChatGPTの概要と歴史
ChatGPTはOpenAIというアメリカの会社によって開発されました。トランスフォーマー(機械学習アーキテクチャ)の方式を取り入れており、機械学習分野における自然言語学習のRecurrent Neural Network(以下RNN)やLong Short Term Memory(以下LSTM)の後継だと言われ、Generative Pre-training Transformer(以下GPT)が正式名称になります。
参考サイト:
https://chatgpt-lab.com/n/n418d3aa56f0b#9afa59e3-1083-40a6-b68f-f378f083c3a0
RNNとは過去の情報を利用して現在および将来の入力に対するネットワークの性能を向上させる、ディープラーニングネットワーク構造を指します。
LSTMはニューラルネットワークに使用される層の一つを指し、RNNの時系列を考慮する層を改良したものであり、もともとRNNが抱えていた勾配消失問題を解消し、時系列を考慮することができるという特徴を活かし、主に自然言語処理や時系列データの予測といった場所で利用されている技術です。なお、このLSTM自体はディープラーニングが流行する前から存在していた手法だったようです。
本体
サービス名 | 特徴 | 長所/短所 | リリース |
---|---|---|---|
ChatGPT4 | 有料サブスク アルファ版(2023年3/24)からスタートし現在はβ版 | 長所:他社プラグインが利用可能。 無料版よりスピードが1.5倍早くいつでも使える。 | 2023年3月15日 |
ChatGPT3.5 | APIサービス開始 1,760億個のデータ量 570GBの学習データセット ※2021年9月までの情報から成り立つ。 | 長所: ほとんどの言語タスクを追加調整なしで利用可。 短所: 1,モデルがどのように特定の決定や予測に至ったかを人間が理解できるようにサポートしない。 2,存在しない、あるいは誤った事実を反映した現実逃避的な出力が含まれる可能性がある。 3,ユーザの明示的な指示に従わないことが多い。 4,明らかに有害または不快もしくは誤った情報を含んでいることがある。 5.混雑し合う時間帯には利用を制限させることがある。 | 2020年 |
ChatGPT2 | 15億個のデータ量 | 長所: 小規模バージョンのモデルをオープンソースで公開 短所: 特定のタスクを利用するのに頻繁に微調整が必要 | 2019年 |
ChatGPT1 | 2018年 |
OpenAI自社製プラグイン
インストールの仕方
https://openai.com/blog/chatgpt-plugins
上リンク先で待ちリスト申請を行うことで利用できるようになる。
プラグイン名 | 説明 | 有料版Plus | 無料版 |
---|---|---|---|
Browsing | Microsoft社のBingと連携してインターネット上の情報にアクセスしながら利用者の質問に対して回答をさせることが可。 | 有 申請不要 | 無 |
Code interpreter | ChatGPTにPythonインタプリタを追加する。 plot function 1/sin(x) みたいな指示でグラフを書いてくれる。 Pythonで処理するファイルのアップロードや、処理結果のダウンロードも可。 | 申請要 | |
Retrieval | 情報提供を許可している個人・団体のデータにアクセスできるプラグイン。 ユーザーは政府機関や各種団体の文書を閲覧でき、例えば国連のデータにアクセスして指示通りの表を作成させることも可。 オープンソースとして公開されている。 https://github.com/openai/chatgpt-retrieval-plugin | 申請要 |
他社製プラグイン
基本的にPlusプランの課金者のみが利用できます。以下を参考にしてください。
有料版と無料版の違い
そして無料版と有料版の1番大きな違いはプラグインが出来るか出来ないかだと思います。
また無料版のデメリットは
- モデルがどのように特定の決定や予測に至ったかを人間が理解できるようにサポートしない。
- 存在しない、あるいは誤った事実を反映した現実逃避的な出力が含まれる可能性がある。
- ユーザの明示的な指示に従わないことが多い。
- 明らかに有害または不快もしくは誤った情報を含んでいることがある。
ただし有料プランにした場合、ブラウザからログインしないと機能を全部使えない可能性があります。
ブラウザはモバイルのブラウザのものでも構いませんが、ネイティブアプリからログインするとプラグインを適用させることはできません。(すでに適用された会話をそのまま続けることはできます。)
ビジネス
V3.5の無料版でもそこそこ使えるが、有料版(毎月3,000円)のV4.0を使うとビジネスの即戦力として便利であると言う報告がたくさんされています。
アカデミック
明らかに試験点数も良い結果が出た報告があるようです。
活用事例
単純作業効率化
ソースコードの書き直し。数字や年号のフォーマットの修正。
PDFのような非構造化データの構造データ化。
参考URL: https://note.com/mahlab/n/n998d8601cfab
ライブラリUnstructured.ioで変換し、そのデータをChat GPTでJSON形式に変換する。
アイディア出し
いいアイディアがあれば貰うくらいの活用法かもしれませんがV4.0は実務即戦力で役立つレベルがあるらしいです。
清書
あるフォーマットに合わせて文章出力を整形して出力をしてくれます。
注意する点
トークン資源
英語アルファベット1単語=1トークン(日本語は1文字3トークンになることもある)と計算され、カンマやピリオド、クエスチョンなどの記号も1トークンとしてカウントされ、トークンのカウントはアウトプットである応答文だけでなく、インプットの投稿文も対象です。
2回目以降の質問をする時は過去の質問文とGPTによる回答文をインプットとしてリクエストするのでやり取り回数が増えれば増えるほどトークン消費は多くなります。
公式ChatGPTはある程度トークン消費が起きると最初の方の質問や回答内容をインプットとして反映しなくなりますのでそのために欲しい回答が得られない場合もあるそうです。
特にChatGPTアプリを作る場合はAPI利用料金に消費トークン量が関わってくるので注意が必要です。
また英語でプロンプト文を書いた方がトークン消費も少なく済むようです。
同一性の維持が難しい
毎回の質問に対して同じ回答がされるのではなく、毎回異なる文章で回答されるのが特徴です。
GPTとの会話はAI学習のために再利用されないようにすることも可能
そのためには履歴を使わない設定にする必要があり、かつ30日しか履歴も維持されなくなります。
デフォの状態では書き込んだ内容はGPT開発者たちが読みGPTの性能上げのために学習データとして再利用することになります。
自サイトもしくは自社サイトの情報をChatGPTに検索させない設定にすることも可能
ChatGPTのBrowsing機能を使えば原則インターネット上のサイトの情報にアクセスして情報を集めて回答を作成することが可能です。その際にMicrosoft社のBingが使われます。デフォ設定ではそのような扱いになっています。
ただし、ChatGPTは自身のユーザーエージェントを「ChatGPT-User」に設定しているため、ウェブサイトの管理者はrobots.txtを用いてChatGPTを明示的にブロックすることが可能になります。