サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
www.nikkei.com
ソフトバンクは15日、人工知能(AI)で客の通話音声を穏やかなトーンに変換する技術の事業化を目指すと発表した。顧客による迷惑行為「カスタマーハラスメント(カスハラ)」に対する取り組みの一環で、コールセンターの電話対応業務に利用する。2025年度中の導入に向けて、東京大学と研究開発や検証を進める。ソフトバンクの新規事業提案制度「ソフトバンクイノベンチャー」から生まれた。電話口で怒鳴るなどの迷惑行
www3.nhk.or.jp
「皆さんがスマートフォンで何かを検索するだけでデータセンターのコンピューターが働いている」 国内の電力需要は減少傾向にありましたが、生成AIの急速な普及などに伴い、一転して増加が見込まれています。 こうした中、国の中長期的なエネルギー政策の指針「エネルギー基本計画」の見直しの議論が始まりました。 目次 データセンター建設相次ぐ なぜ? 生成AIの急速な普及 電力需要に影響も
forest.watch.impress.co.jp
joisino.hatenablog.com
拙著『グラフニューラルネットワーク』が重版して第 3 刷となりました。皆さまありがとうございます! 拡散モデルと最適輸送でもやりましたが、漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいなと思ったので、僕も専門書が重版したときに重版感謝の書き下ろし専門記事を投稿します。 本稿では、ICLR 2024(5/7 - 5/11 @ウィーン)で発表されたグラフニューラルネットワーク (GNN) 関連の研究動向を紹介します。 ICLR 2024 で発表された GNN 関連の論文は全部で 170 本です。凄まじい量ですね。ICLR 2024 では全て合わせて 2296 本の論文が採択されたので、7.4 パーセントが GNN 関連ということになります。この分量からも、GNN が活気ある研究対象であることが伺えます。 以下では、代表的なトピックについて
3dnchu.com
Blender アドオン プラグイン&アドオン-Plugin&Addon Deep Paint v1.0 - GAKU氏によるGrease Pencilを... 2024-05-15 ハリウッド映画のVFX製作に携わる経験を持ちオンラインアートスクールも運営しているGAKUこと多田学氏が、以前予告していた立体絵画制作用Blenderアドオン『Deep Paint v1.0』をリリースしました! 続きを読む SFX・DTM・DAW ソフト ソフトウェア&ツール-Software&Tool FamiStudio 4.2.0 - NES(ファミコン)風レトロサウンド特化の... 2024-05-14 BleuBleu氏によるNES(ファミコン)風のレトロサウンドを作成可能なエディタ「FamiStudio」のメジャーアップデートバージョン4.0.0がリリースされました!オープンソースで無料!Win
applech2.com
Mac用ChatGPTクライアント「MacGPT」がGPT-4oに対応しています。詳細は以下から。 OpenAIは現地時間2024年05月13日、反応速度を向上させ、より人間らしい対話が可能にな最新のAIモデル「GPT-4o」を発表しましたが、Mac用ChatGPTクライアント「MacGPT」が最新のバージョン3.21でGPT-4oに対応しています。 Added support for the new GPT-4o model which is twice as fast and two times cheaper! リリースノートより MacGPTはNaviでApple Design Awards 2022 ファイナリストに選出されたオランダのJordi Bruinさんが開発しているChatGPTクライアントで、ChatGPTのWebベースに加え、OpenAIのAPIを利用することでネイ
www.yomiuri.co.jp
【読売新聞】 京都市観光協会が市内の宿泊施設や飲食店の外国語の案内表示を調べたところ、約500か所でミスが見つかった。語学ができる人材の不足やAI(人工知能)翻訳に頼っていることが背景にある。同協会は「インバウンド(訪日外国人客)が
アメリカのIT大手グーグルは検索サービスに生成AIを本格的に導入し、単語で区切らず文章で入力しても知りたいことが調べられる機能を盛り込むと発表しました。IT各社による生成AIの開発競争が一段と激しくなっています。 この中でピチャイCEOは自社が開発する生成AI「Gemini」について処理できる情報量を従来の技術よりおよそ30倍増やして反応する速度を高めた最新モデルを発表しました。 その上で、主力事業である検索サービスに生成AIを本格的に導入すると明らかにしました。 単語で区切らず文章で入力しても知りたいことが調べられる機能を盛り込んだほか、壊れた家電の動画を入力すれば修理方法を示すなど、検索を便利に使えるようにするとしています。 無料で提供し、まずアメリカで始めるということです。 このほか、生成AIがスマートフォンのカメラで周囲の状況を把握し、例えばメガネをどこに置いたのか忘れてしまったと
cloud.watch.impress.co.jp
www.itmedia.co.jp
マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。 また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。 Googleは、将来的にはVeoの機能の一部をYouTubeショートなどにも導入する計画だ。 関連記事 Androidに“Google AI”の新機能 OSにGeminiを統合、「かこって検索」で問題を解く機能など 米Googleが、Android向けに搭載するAI関連の新機能を発表した。特定の部分を丸で囲って検索ができる「かこって検索」を、学習に活用できるようにする。Androidに生成AIモデルの「Gemini」を統合し、アプリ上のオーバーレイ表示から、より簡単にGeminiを利用可能になる。
gigazine.net
Googleが現地時間の2024年5月14日に開催した開発者向けイベントの「Google I/O」で、映像や音声を理解してリアルタイムで質問に答えてくれるAIエージェント「Project Astra(Astra)」を発表しました。実際に、ユーザーがスマートフォンとスマートグラスのカメラで撮影した物事について、Astraにあれこれ質問しているデモ動画も公開されています。 Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/ Google strikes back at OpenAI with “Project Astra” AI agent prototype |
zenn.dev/kun432
GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。 現在のAPIの能力 現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート 追加のモダリティ(例えばオーディオ)は現時点(2024/5/14)では使えない。近日導入される予定 Colaboratoryで動かしてみる インストール
www.techno-edge.net
問題の部分は、動画開始後1分を過ぎたあたり。レトロなフィルムカメラを手に持つ青年が、「なんでレバーが最後まで動かないの?」と質問したところ、GoogleのAIは即座にいくつかの回答を提示し、最後に最も最適と思われる答えを強調表示しました。 ところが、その強調された答えは「裏蓋を開けて、そっとフィルムを取り出す」というものでした。もし、フィルムカメラ世代の人々やカメラ好きな人々がこの答えを示されたなら、きっと慌てることでしょう。 (▲画像:「裏蓋を開けてそっとフィルムを取り出す」回答をハイライト。) 手巻き式のカメラでフィルム巻き上げレバーが途中で止まるようになったら、それはいま使っているフィルムカートリッジの撮影可能枚数が終了したことを意味します。 そうなった場合は、カメラ内にあるフィルムをカートリッジ内に完全に巻き戻してから取り出し、現像にまわすというのが正しい手順です。 ところがGoo
OpenAIは日本時間の2024年5月14日、新たなAIモデルである「GPT-4o」を発表しました。テキストや音声、視覚情報を高速で処理してリアルタイムな応答が可能で、一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。 GitHub - kagisearch/llm-chess-puzzles: Benchmark LLM reasoning capability by solving chess puzzles. https://github.com/kagisearch/llm-chess-puzzles 2024年4月、チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というウェブサイトに、「gpt2-chatbot」というモデルが突如として追
www.watch.impress.co.jp
togetter.com
kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません.思いついたことをつぶやきます. kmizu.github.io
スタンフォード大学のクリストファー・レ教授率いる研究チームがGPUを最大限に活用して一定時間当たりの演算量を最大化するためのドメイン固有言語(DSL)「ThunderKittens」をリリースしました。 ThunderKittens: A Simple Embedded DSL for AI kernels · Hazy Research https://hazyresearch.stanford.edu/blog/2024-05-12-quick-tk GPUs Go Brrr · Hazy Research https://hazyresearch.stanford.edu/blog/2024-05-12-tk 研究チームはNVIDIA H100を使用し、GPU使用率の最大化に取り組みました。H100はTensorコアを使用する半精度行列乗算計算の性能が989TFLOPSであり、その他
blog.google
k-tai.watch.impress.co.jp
ascii.jp
OpenAIは5月13日(現地時間)、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。 テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。 ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni(オムニ)」から来ている。 以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。 ベンチマーク(OpenAIが提供するsimple-eva
Adobeに1998年から勤務し、2007年からCEOを務めているシャンタヌ・ナラヤン会長兼CEOがAIなどについて語るインタビューが、ニュースサイト・The Vergeで公開されています。 Why Adobe CEO Shantanu Narayen thinks AI is the future - The Verge https://www.theverge.com/24153956/adobe-shantanu-narayen-ai-firefly-premiere-photoshop-pdf-creativity-commerce インタビューを行ったのは編集長のニライ・パテル氏です。 配信されている音声によれば、インタビューは1時間近くにわたって行われたようで、ナラヤン氏はいろいろな質問に答えています。その中で、AIについても言及しています。 業界歴が長いナラヤン氏は、これまで
次のページ
AI・機械学習の人気エントリー
ITの新着エントリー
セキュリティ技術の新着エントリー
はてなブログ(テクノロジー)の新着エントリー
プログラミングの新着エントリー
エンジニアの新着エントリー
このページを最初にブックマークしてみませんか?
『AI・機械学習』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く