Browsing Audio Data
Browsing merupakan aktivitas menjelajahi dunia maya
(Internet) untuk mencari informasi yang terkini tanpa batas dan tanpa birokrasi
atau dikenal juga dengan istilah surfing internet (berselancar di dunia maya),
software yang digunakan dikenal dengan nama web browser. Beberapa contoh web browser adalah Mozilla
Firefox, Internet aexplorer, Opera, Chrome, dll.
Dalam beberapa tahun terakhir, perkembangan Internet telah
didefinisikan kembali berbagai bidang
hiburan, khususnya, yaitu musik. Hari ini, real-time Internet Real audio
streaming musik dan MP3 secara teratur dinikmati oleh jutaan pendengar. Makalah
ini menyajikan multimedia yang berpusat manusia audio (audio informasi) sistem
pencarian melalui jaringan komputer.
Karya ini juga telah diurus memainkan audio yang
terus-menerus tanpa ada data yang mengganggu dengan menerapkan mekanisme
streaming dan buffering. Arsitektur sistem client-server berikut model.
Database digunakan untuk menyimpan informasi metadata audio. Server audio yang
bertanggung jawab untuk mengambil informasi dari database untuk memenuhi
permintaan klien. Klien menyediakan antarmuka komputer manusia untuk pengguna
melalui antarmuka pengguna grafis untuk browsing, mencari dan memainkan audio
yang menarik melalui jaringan. Berdasarkan masukan klien permintaan pengguna ke
server untuk mendapatkan informasi audio (seperti daftar film-film bahasa
tertentu, daftar lagu-lagu film tertentu dan daftar lagu berdasarkan pencocokan
pengguna memasukkan teks lirik). Audio pengambilan informasi dari basis data
akan dilakukan oleh server berbasis teks menggunakan metode pencarian.
Browsing Audio Data merupakan metode browsing jaringan yang
digunakan untuk browsing video / audio data yang ditangkap oleh sebuah IP
kamera. Sebuah komputer lokal digabungkan ke LAN (local area network) untuk
mendeteksi IP kamera. Jaringan video / audio metode browsing mencakupi
langkah-langkah sebagai berikut :
- Menjalankan sebuah program aplikasi komputer lokal untuk mendapatkan kode identifikasi yang disimpan dalam kamera IP.
- Transmisi untuk mendaftarkan kode identifikasi ke DDNS ( Dynamic Domain Name Server) oleh program aplikasi.
- Mendapatkan kamera IP pribadi alamat dan alamat server pribadi sehingga pasangan IP kamera dan kontrol kamera IP melalui kamera IP pribadi alamat dan alamat server pribadi compile ke layanan server melalui alamat server pribadi sehingga untuk mendapatkan video / audio data yang ditangkap oleh kamera IP, dimana server layanan menangkap video / audio data melalui Internet.
Browsing audio data tidak semudah browsing dokumen cetak,
karena adanya sifat temporal suara. Ketika melakukan browsing terhadap dokumen,
kita dapat dengan cepat mengalihkan fokus perhatian dengan membaca sepintas isi
dari dokumen tersebut. Kita dapat mengetahui ukuran dan struktur dokumen, dan
menggunakan memori spasial visual untuk mengingat dan mencari spesifik topik. Namun, ketika browsing suatu rekaman audio,
kita harus berulang kali memainkan dan melompati bagian tertentu, tanpa
memainkannya, kita tidak bisa menyadari suara atau isinya. Kita harus
mendengarkan semua stream audio untuk dapat menangkap semua isinya.
Beberapa bentuk informasi yang dapat dicari (browsed) melalui internet, yaitu: informasi berupa
teks (text/plain, text/html), image (image/gif, image/jpeg, image/png), video
(video/mpeg, video/quicktime), audio (audio/basic, audio/wav) dan application
(application/msword, application/octet-stream).
Contoh yang paling sederhana pemanfaatan teknologi Speech
Recognition adalah voice dial yang sempat menjadi fitur andalan ponsel-ponsel
high-end akhir dekade yang lalu. Sedangkan pengaplikasian mutakhir teknologi
ini dapat dijumpai pada layanan call center, kemudian secara otomatis komputer
akan memberikan solusinya.
Speech Recognition
Penerapan Speech Recognition juga dapat ditemukan pada
beberapa aplikasi komputer yang memungkinkan Anda mengetik dokumen tanpa harus
memencet tombol-tombol keyboard. Cukup dengan mendiktekan kalimat-kalimat,
kemudian secara otomatis komputer akan mengetikkannya untuk Anda. Banyak
software yang dirancang untuk mengetikkan apa yang Anda katakan melalui
microphone, seperti iListen untuk komputer Mac, dan software ViaVoice keluaran
IBM.
Teknologi Speech Recognition yang dikembangkan sejak sepuluh
tahun lalu menghadapi dua pilihan, yakni menangkap percakapan terputus (kata
per kata) atau percakapan tersambung (per kalimat). Komputer sebenarnya lebih
mudah memahami suara untuk kata per kata, yang di antara masing-masing kata
terdapat jeda, namun kebanyakan orang lebih menyukai jika teknologi ini mampu
menangkap sebuah percakapan normal.
Dari Suara ke Data
Untuk mengubah percakapan menjadi teks on-screen atau
perintah tertentu, komputer melakukan beberapa langkah yang kompleks. Ketika
berbicara, Anda mengeluarkan getaran di udara. Kemudian, analog-to-digital
converter (ADC) yang ada di soundcard menerjemahkan gelombang analog ini
menjadi data digital yang dapat dimengerti oleh komputer.
Untuk melakukan hal tersebut, sistem Speech Recognition
melakukan sampling atau digitizing suara dengan cara mengambil ukuran yang
paling pas dari gelombang. Sistem menyaring suara yang telah didigitalkan
tersebut dan membuang gangguan (noise), dan kadang-kadang memisahkannya ke
dalam pita frekuensi yang berbeda. Frekuensi adalah panjang gelombang suara,
yang terdengar oleh telinga manusia sebagai tinggi nada (pitch) yang berbeda.
Sistem ini juga menormalkan suara, atau mengaturnya ke dalam
tingkat volume yang tetap, terkadang juga mendatarkan suara. Manusia tidak
berbicara dalam kecepatan yang sama sehingga suara harus diatur dengan
kecepatan yang sama dengan sampel-sampel template suara yang tersimpan dalam
komputer.
Langkah selanjutnya adalah memecah sinyal menjadi
bagian-bagian kecil, dengan durasi seperseratus detik, atau bahkan seperseribu
pada kasus bunyi-bunyi konsonan atau mati. Konsonan memberhentikan produksi
suara dengan menghalangi aliran gelombang pada bidang vokal, seperti “p” atau
“t”.
Program di komputer kemudian mencocokkan bagian-bagian kecil
ini dengan fonem yang dikenal dalam bahasa tertentu. Fonem adalah elemen
terkecil dalam sebuah bahasa, merepresentasikan suara yang kita hasilkan, dan
merangkainya ke dalam bentuk ujaran yang memiliki makna.
Tahap berikutnya kelihatan sederhana, tapi pada dasarnya
merupakan proses yang paling susah diselesaikan, sekaligus merupakan inti dari
sebagian besar penelitian di bidang Speech Recognition. Komputer memeriksa
fonem-fonem dalam konteks (hubungan) dengan fonem-fonem lain yang menyertainya.
Komputer menjalankan alur (plot) melalui sebuah model
statistika yang kompleks, dan membandingkannya dengan koleksi kata, frase, dan
kalimat yang telah dikenal. Program Speech Recognition selanjutnya menentukan
apa yang mungkin dikatakan oleh pengguna, dan juga mengetikkannya sebagai teks
atau mengeluarkannya sebagai perintah pada komputer.
Permodelan Statistika
Program Speech Recognition pada generasi awal berusaha untuk
menerapkan sebuah aturan gramatikal dan sintaktikal dari sebuah percakapan.
Jika kata-kata yang diucapkan masuk ke dalam aturan yang baku, program dapat
menentukan kata-kata tersebut.
Aksen, dialek, dan gaya berbahasa seseorang sangat
mempengaruhi bagaimana sebuah kata atau frase diucapkan. Sistem berbasis aturan
ini dianggap tidak berhasil, karena tidak mampu menangani variasi berbahasa.
Hal ini juga menjelaskan mengapa program Speech Recognition generasi awal tidak
dapat menangani percakapan bersambung, karena Anda harus berbicara kata perkata
secara terpisah.
Sebagai jalan keluar dari permasalahan ini, program Speech
Recognition mutakhir memakai sistem permodelan statistika yang lengkap dan rumit.
Sistem ini menggunakan fungsi probabilitas (kemungkinan) dan matematika untuk
memutuskan hasil yang paling mendekati.
Dua model yang paling banyak digunakan saat ini adalah
Hidden Markov Model dan jaringan syaraf (neural networks). Kedua metode melibatkan
fungsi matematika yang kompleks, mengambil informasi yang diketahui,
memprosesnya di dalam sistem untuk menemukan informasi yang tersembunyi.
sumber :