Proses Mengenali Adegan (Scene) Dengan Kamera Ponsel Untuk Mengakses Informasi Wisatawan

Pada tulisan ini membahas sebuah sistem kerja, basis data The Stoic 101, dan algoritma penemuan pola baru untuk melatih potongan-potongan gambar yang berulang dalam sebuah adegan diskriminatif yang digunakan untuk mengakses informasi wisatawan guna memberikan deskripsi adegan berdasarkan gambar yang diambil melalui kamera ponsel. Pada riset yang telah dilakukan ini menggunakan 90 adegan, dilatih pada 5 gambar per adegan.
Sistem kerjanya menyediakan multi deskripsi (teks, audio, dan visual) dari aksi wisatawan berdasarkan gambar yang ditangkap dan dikirim oleh telepon kamera.

Arsitektur Sistem

Prototipe aplikasi ini, The Snap2Tell, mengimplementasikan arsitektur 3 tier : klien-server-database. Klien berfungsi untuk menangkap gambar dan berinteraksi dengan server melalui GPRS dan WiFi melalui protokol yang dikembangkan dengan xml.

Basis Data

Basis data berisi 101 lokasi wisata di Singapura dengan total 5278 gambar. Gambar-gambar di ambil dari 3 jarak terdekat dan 4 sudut dalam cahaya alami dengan campuran oklusi dan latar belakang yang berantakan untuk memastikan 16 gambar per adegan. Untuk setiap adegan, sebagai deskripsi yang telah dikumpulkan dari berbagai sumber online dan menceritakannya ke dalam format audio AMR.

Pengenalan Adegan Menggunakan Potongan Diskriminatif

Menggunakan deskriptor lokal invarian potongan gambar yang diekstraksi sekitar titik-titik perhatian terdeteksi di foto untuk pencocokan citra dan pengenalan objek.

Pendekatan pola penemuan baru untuk menemukan citra lokal yang berulang dalam kelas adegan dengan menggunakan Support Vector Machine(SVMs) sebagai pengklasifikasi diskriminatif. Melalui adopsi skala multi sampling yang seragam untuk mengambil potongan gambar.

Deteksi Potongan Diskriminatif

Untuk menemukan potongan diskriminatif, hitung kemungkinan rasio untuk setiap potongan gambar sampel Z dari foto :

dimana C dan C2 adalah kelas masing-masing positif dan negatif.

Untuk memperkirakan kemungkinan P(z|C) dan P(z| C2) dari potongan pada gambar pelatihan C dan C2 masing-masing, dengan mengadopsi estimator densitas non-parametrik seperti Parzen-window. Sebagai aturan praktis, objek yang menarik di setiap kelas biasanya muncul di tengah-tengah gambar.

di mana xz, yz dan xc, yc adalah kordinat XY dari potongan sampel z dan masing-masing pusat gambar.

Deteksi diskrimatif dengan voting

Melalui potongan dari foto, kemudian dihitung dan dilambangkan sebagai z. Kemudian elemen di dalam klasifikasi vektor T untuk sampel z dan dinormalisasi dengan [0,1] :

Untuk menghitung banyaknya suara Vi(x) dari potongan gambar sampel z dari gambar x :

Sumber : http://ipal.i2r.a-star.edu.sg/doc/publications/lim07_ICME_scene.pdf

3 responses to this post.

  1. Thanks buat sharenya sob,…keep posting

    and please come to the secrete of :

    TEST TELKOMSEL UNLIMITED up to 3,6 Mbps !!!

    Balas

  2. Mantap Gan..Kpn2x Jarin Gwe Yak..hehehe….

    Balas

Tinggalkan komentar