Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-...
Search
yumulab
March 18, 2025
Research
1
31
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
2025年3月18日(火)の情報処理学会エンタテインメントコンピューティング(EC)研究発表会 発表スライド
yumulab
March 18, 2025
Tweet
Share
More Decks by yumulab
See All by yumulab
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
27
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
0
32
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
28
NOVVS:北海道情報大学図書館における滞在人数可視化システムの開発と検証 / i2025-minami
yumulab
0
11
CHaserWeb:ブラウザ上で動作する対戦型プログラミング学習環境の提案と評価 / i2025-inoue
yumulab
0
49
CARMUI-NET:自動運転車遠隔監視のためのバーチャル都市プラットフォームにおける通信品質変動機能の開発と評価 / UBI85
yumulab
0
100
待機電力を削減したネットワーク更新型電子ペーパーサイネージの研究開発 / UBISympo2025
yumulab
0
60
デジタルファブリケーションの未来を北海道・札幌から考える / SIAF School 2025
yumulab
0
69
入浴時に映像が投影される一人用足湯システムの開発と運用 / ipsjhokkaido2024
yumulab
0
88
Other Decks in Research
See All in Research
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
0
140
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
190
Bluesky Game Dev
trezy
0
180
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
590
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
180
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
3
210
Neural Fieldの紹介
nnchiba
2
790
SI-D案内資料_京都文教大学
ryojitakeuchi1116
0
150
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
250
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
400
言語モデルの内部機序:解析と解釈
eumesy
PRO
32
12k
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
920
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
99
5.4k
Git: the NoSQL Database
bkeepers
PRO
429
65k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Thoughts on Productivity
jonyablonski
69
4.5k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Adopting Sorbet at Scale
ufuk
75
9.3k
Being A Developer After 40
akosma
89
590k
4 Signs Your Business is Dying
shpigford
183
22k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
50
2.4k
Transcript
チャッドローン LLMによる画像認識を用いた 自律型ドローンシステムの開発と実験 森崎 一歩,湯村 翼 北海道情報大学
研究背景 2 • 災害、物流、エンタテインメントなどの様々な 分野でドローンが活用 • ドローンの有効活用には熟練した操縦士が必要 • 自律飛行に注目
研究背景 3 • 既存の自律飛行技術 • GNSS(GPS) → 屋内で使えない • 画像処理
→ 場所に応じた学習モデルが必要 大規模言語モデル(LLM)を用いたドローン自律飛行
関連研究 4 • 池山安杜里, 山内翔,鈴木恵二: 大規模言語モデルによるドローンの 広域景観撮影システムの提案 (2023) [1] •
自律飛行のウェイポイント(通過点)の設定にLLMを活用 • 屋内を対象としていない • Vemprala, S. H., Bonatti, R., Bucker, A. and Kapoor, A.: Chatgpt for robotics: Design principles and model abilities (2024) [2] • ロボティクス制御へのLLM適用に関する設計原則を提示 • 対話的な制御を想定
チャッドローン 5 • ドローンからLLMに画像+プロンプトを送信 • LLMからドローンに制御コマンドを送信 • これらの処理は、中継するコアプログラムが担う ドローン PC
LLM コアプログラム (Python) 撮影画像 撮影画像+プロンプト あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回 レスポンス 制御コマンド
チャッドローン 6 • RyzeTech社製のTelloを使用 • WebAPIで制御・画像取得が可能 • LLMにChatGPTを使用 • OpenAI
APIでアクセス • 画像認識が可能なGPT-4Vを利用 • コアプログラムをPythonで実装
プロンプト 7 • 矩形の部屋内の壁沿いを巡回するプロンプトを作成 • 以下のルールのもとでプロンプトを作成 • 冒頭に概要を記述 • 画像を読み取り,当てはまる状況を選択肢から選択して
返答する旨を記述 • 状況の選択肢を記述 • どの選択肢も当てはまらない場合の指示を記述 (Ver.2 に追加)
プロンプト 8 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。 以下の指示の内画像の状況にあてはめ、丁度当てはまるものを選び答えを出力して下さ い 指示一:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がある場合はMと出力して下さい。 指示二:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がない場合はTLと出力して下さい プロンプト
Ver.1
プロンプト 9 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。なので 以下の指示を画像の状況にあてはめ、丁度あてはあるものを選び答えを出力してください。 指示一:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がある場合はMと出力してください。 指示二:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に三メート ル以上の空間がある場合はMMMと出力してください。 指示三:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に五メート ル以上の空間がある場合はMMと出力してください。
指示四:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がない場合はTLと出力してください。 指示五:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がある場合はMと出力してください。 指示六:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に五メートル以上 の空間がある場合はMMと出力してください。 指示七:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がない場合はTLと出力してください。 また画像から判断できない場合はTLと出力してください プロンプト Ver.2
実証実験 10 • 予備実験および本実験を実施 • 本実験:大学内の小教室 • 4.7m × 10.1m
• 確認項目 1. ChatGPT が意図通りのレスポンスを作成するか 2. LLM によってドローンを自律飛行させることが可能か 3. ドローンを意図通りに動かすことが可能か 4. プロンプトの内容を変更することでふるまいがどのよう に変化するか
← 実行内容 ↑ドローンカメラ映像 11
実証実験 | 結果 12 1. ChatGPT が意図通りのレスポンスを作成するか → 2. LLM
によってドローンを自律飛行させることが可能か → 3. ドローンを意図通りに動かすことが可能か → 4. プロンプトの内容を変更することでふるまいがどのように変化 するか → 自律飛行にユーザの意図を反映
実証実験 | 結果 13 • Ver2では、より壁際を飛行するようにした • プロンプトを変えることにより、飛行の振る舞いが変化 • ユーザの意向を反映させた自律飛行が可能
課題 14 • 割り込み制御の仕組みの必要性 • 本研究では、撮影と制御コマンドを周期的に実行 • 急激な環境変化に対応できない • プロンプトの詳細化にともなう応答の遅延
• Ver.1と比べてVer.2のプロンプトでは応答時間が3倍以 上となる場合もあった • 飛行精度とのトレードオフ
おわりに 15 • LLMによるドローンの自律飛行システムチャッドローンを提案 • プロトタイプを実装し、動作を確認 • 専門知識がないユーザも、プロンプトの書き換えによって自律飛行の デザインが可能 コアプログラム
(Python) あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回