Master Degree / Yüksek Lisans Tezleri
Permanent URI for this collectionhttps://hdl.handle.net/11147/3008
Browse
1 results
Search Results
Master Thesis Human-centric artificial intelligence systems for visual assistance and multimodal emotion analysis(01. Izmir Institute of Technology, 2024) Gümüş, Abdurrahman; Gümüş, Abdurrahman; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technologyİnsan merkezli yapay zeka sistemleri, günlük yaşamı iyileştiren ve gerçek dünyadaki zorlukları ele alan teknolojiler yaratmak için çok önemlidir. Bu perspektifte, iki proje önerilmektedir. İlk proje olan Vis-Assist, görme engelli bireylere yardımcı olmak için tasarlanmış bir giyilebilir görsel yardımcı cihazdır. Nesneleri algılar ve sınıflandırır, mesafelerini ölçer ve harici sunuculara ihtiyaç duymadan entegre düşük maliyetli bir hesaplama birimi kullanarak titreşim motoru dizisi aracılığıyla gerçek zamanlı dokunsal geri bildirim sağlar. Bu cihaz, kullanıcıların 19 farklı nesne sınıfı arasında ayrım yapmasına ve güvenli bir şekilde gezinmesine olanak tanır. Geliştirilen giyilebilir cihazın performansı, dört katılımcıyla iki tür deney yoluyla değerlendirildi. Sonuçlar, kullanıcıların nesnelerin yerini belirleyebildiğini ve böylece engellerle çarpışmayı önleyebildiğini göstermektedir. Kullanıcılar ortalama olarak, 40 m²'lik boş bir alanda bir sandalye gibi önceden tanımlanmış bir nesneyi 94 saniyeden kısa bir sürede bulabilir ve nesneleri bulmak için engellerin etrafından dolaşabilir ve 121 saniyeden kısa bir sürede nesneleri bulabilir. İkinci proje, az sayıda atış öğrenmesi kullanarak çok modlu duygu sınıflandırmasına odaklanıyor. Yapay zekadaki geleneksel yöntemler, genellikle metin, görüntü, zaman serisi sinyali, ses spektrogramı gibi tek bir kaynak türünden gelen girdilere dayanır. Bu kaynaklar, modelin performansını iyileştirmek için çok modlu yaklaşımla birleştirilebilir. Bu araştırmada, OpenAI'nin CLIP çerçevesini kullanarak bir yapay zeka modeli geliştirildi ve Tip-Adapter algoritması üç tür girdiyi (metin, ses ve video) işleyecek şekilde uyarlandı. Modelin performansı, iki veri kümesi kullanılarak bir duygu sınıflandırma görevi üzerinde test edildi. Sonuçlar, çok modluluğun tek bir modalite kullanmaya kıyasla doğruluğu artırdığını göstererek, karmaşık, gerçek dünya ortamlarını anlayabilen ve bunlara yanıt verebilen insan merkezli AI sistemlerinin önemini vurguluyor.
