Master Degree / Yüksek Lisans Tezleri

Permanent URI for this collectionhttps://hdl.handle.net/11147/3008

Browse

Search Results

Now showing 1 - 10 of 13

Deep learning based adaptive resizing of high resolution images for improved segmentation performance
(01. Izmir Institute of Technology, 2025) Gümüş, Abdurrahman; Gümüş, Abdurrahman; 01. Izmir Institute of Technology; 03. Faculty of Engineering; 03.05. Department of Electrical and Electronics Engineering
Yüksek çözünürlüklü tıbbi görüntülerin derin öğrenme modelleri için küçültülmesi, geleneksel yeniden boyutlandırma yöntemleriyle bilgi kaybı nedeniyle tanısal doğruluğu sıkça tehlikeye atmaktadır. Bu tez, tıbbi görüntü analizini geliştirmek için uyarlanabilir yeniden boyutlandırma tekniklerini araştırmakta ve ilerletmektedir. Başlangıç çalışmaları, CRAG veri seti üzerinde kolorektal bezi segmentasyonu için mevcut bir uyarlanabilir yeniden boyutlandırıcının bilineer interpolasyona göre üstünlüğünü doğrulamış, Kesişim üzeri Birleşim (IoU) oranını %8.2'ye kadar artırmıştır. Bu bulgular üzerine inşa edilen temel katkı, altı yeni uyarlanabilir yeniden boyutlandırıcı mimarisinin geliştirilmesi ve titiz bir şekilde değerlendirilmesidir. Bunlar, hem segmentasyon/sınıflandırma performansını hem de hesaplama verimliliğini optimize etmek için tasarlanmıştır. Önerilen yeniden boyutlandırıcılar, Yüksek Çözünürlüklü Fundus (HRF) veri seti kullanılarak retina damar segmentasyonunda ve Hint Diyabetik Retinopati Görüntü Veri Seti (IDRiD) ile diyabetik retinopati sınıflandırmasında test edilmiştir. Deneysel sonuçlar, önerilen mimarilerin genellikle mevcut yöntemlerden daha iyi performans gösterdiğini ortaya koymaktadır. Segmentasyon için, 'Resizer MFY' bilineer interpolasyona göre ortalama IoU artışında +%.21.04 ile en yüksek performansı elde etmiştir. Sınıflandırmada, 'Resizer A2' bilineere göre ortalama F1 skorunda +%.22.39 artışla en etkili olduğunu kanıtlamıştır. Kritik olarak, 'Minimal V1' mimarisi, yeni uyarlanabilir yeniden boyutlandırıcılar arasında sürekli olarak en düşük hesaplama yükünü göstermiştir. Orijinal uyarlanabilir yeniden boyutlandırıcı da dahil olmak üzere diğer uyarlanabilir yöntemlere göre önemli ölçüde daha hafifken, dikkate değer performans iyileştirmeleri sunmaktadır. Bu araştırma, bu yeni uyarlanabilir yeniden boyutlandırıcıların tıbbi görüntülemede derin öğrenme modeli doğruluğunu önemli ölçüde artırabildiğini başarılı bir şekilde göstermektedir. Çalışma, özel olarak tasarlanmış, hesaplama açısından dikkate değer çözümler sunarak, analiz ardışık düzeninde yeniden boyutlandırma stratejisinin önemini vurgulamakta ve daha etkili tanı araçlarının önünü açmaktadır.
Hardware acceleration with fpga Based electronic boards for machine learning
(01. Izmir Institute of Technology, 2024) Gümüş, Abdurrahman; Apaydın, Mehmet Serkan; Gümüş, Abdurrahman; Apaydın, Mehmet Serkan; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
Son yıllardaki makine ög˘renmesi algoritmalarındaki gelis¸meler uç cihazlardaki kullanımını da arttırmıs¸tır (Merenda et al., 2020). Makine ög˘renimi algoritmaları genel- likle GPU tabanlı bilgisayarlarda çalıs¸tırılmaktadır, bu da yüksek enerji tüketimi (De- sislavov et al., 2021), yog˘un donanım kaynag˘ı gereksinimleri ve büyük fiziksel boyutları (Liu et al., 2022) nedeniyle uç cihazlar için uygun olmamaktadır. Bu tez, donanım hızlandırıcısı olarak FPGA platformlarında makine ög˘renmesi algoritmalarının, özellikle derin sinir ag˘larının uygulanması ve çıkarım yapılmasını aras¸tırarak, düs¸ük güç tüke- timi, verimli donanım kullanımı ve yüksek çıkarım performansı elde etmeyi hedefle- mektedir. Bu sistemlerin uç cihazlara adaptasyonu için esneklig˘i ve verimlilig˘i artırmak amacıyla, CNV ag˘ının (Umuroglu et al., 2017b) daha hafif bir varyasyonu olan CNV light gelis¸tirilmis¸. Bu ag˘, PyTorch tabanlı bir araç olan Brevitas (Pappalardo et al., 2019) ile nicemleme-farkında-eg˘itim yöntemi, kullanılarak 1, 2, 4 ve 8-bit seviyelerine nicemleme yapılmıs¸tır. CNV light ag˘ı CIFAR-10, SVHN, GTSRB ve MNIST veri setleri üzerinde Brevitas ile eg˘itilmis¸tir. Modeller FINN çerçevesi (Umuroglu et al., 2017a) kullanılarak FPGA'ya sentezlenmis¸tir. Modeller en fazla, en az ve sabit FPS seviye donanım kul- lanımına göre ayarlanmıs¸tır. Xilinx XC7Z020-1CLG400C FPGA, modelin metriklerini deg˘erlendirmek ve raporlamak için kullanılmıs¸tır. GTSRB veri setinde, ikili (W1A1) nicemleme yapılmıs¸ CNV light ag˘ı, tüm donanım kullanımları için %95.12 dog˘ruluk ve en fazla donanım kullanımında 12,191 FPS performansı ve 3.20W güç tüketimi elde etti, minimum donanım kullanımı için ise 6 FPS ve 1.62W güç tüketti. Sonuçlar, FPGA'ların uç cihazlarda makine ög˘renmesi modellerini verimli ve ölçeklenebilir platformlar olarak kullanılabileceg˘ini göstermektedir.
Human-centric artificial intelligence systems for visual assistance and multimodal emotion analysis
(01. Izmir Institute of Technology, 2024) Gümüş, Abdurrahman; Gümüş, Abdurrahman; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
İnsan merkezli yapay zeka sistemleri, günlük yaşamı iyileştiren ve gerçek dünyadaki zorlukları ele alan teknolojiler yaratmak için çok önemlidir. Bu perspektifte, iki proje önerilmektedir. İlk proje olan Vis-Assist, görme engelli bireylere yardımcı olmak için tasarlanmış bir giyilebilir görsel yardımcı cihazdır. Nesneleri algılar ve sınıflandırır, mesafelerini ölçer ve harici sunuculara ihtiyaç duymadan entegre düşük maliyetli bir hesaplama birimi kullanarak titreşim motoru dizisi aracılığıyla gerçek zamanlı dokunsal geri bildirim sağlar. Bu cihaz, kullanıcıların 19 farklı nesne sınıfı arasında ayrım yapmasına ve güvenli bir şekilde gezinmesine olanak tanır. Geliştirilen giyilebilir cihazın performansı, dört katılımcıyla iki tür deney yoluyla değerlendirildi. Sonuçlar, kullanıcıların nesnelerin yerini belirleyebildiğini ve böylece engellerle çarpışmayı önleyebildiğini göstermektedir. Kullanıcılar ortalama olarak, 40 m²'lik boş bir alanda bir sandalye gibi önceden tanımlanmış bir nesneyi 94 saniyeden kısa bir sürede bulabilir ve nesneleri bulmak için engellerin etrafından dolaşabilir ve 121 saniyeden kısa bir sürede nesneleri bulabilir. İkinci proje, az sayıda atış öğrenmesi kullanarak çok modlu duygu sınıflandırmasına odaklanıyor. Yapay zekadaki geleneksel yöntemler, genellikle metin, görüntü, zaman serisi sinyali, ses spektrogramı gibi tek bir kaynak türünden gelen girdilere dayanır. Bu kaynaklar, modelin performansını iyileştirmek için çok modlu yaklaşımla birleştirilebilir. Bu araştırmada, OpenAI'nin CLIP çerçevesini kullanarak bir yapay zeka modeli geliştirildi ve Tip-Adapter algoritması üç tür girdiyi (metin, ses ve video) işleyecek şekilde uyarlandı. Modelin performansı, iki veri kümesi kullanılarak bir duygu sınıflandırma görevi üzerinde test edildi. Sonuçlar, çok modluluğun tek bir modalite kullanmaya kıyasla doğruluğu artırdığını göstererek, karmaşık, gerçek dünya ortamlarını anlayabilen ve bunlara yanıt verebilen insan merkezli AI sistemlerinin önemini vurguluyor.
Video Surveillance System Based on Action and Event Recognition With Moving Object Detection and Tracking
(01. Izmir Institute of Technology, 2024) Ünlü, Mehmet Zübeyir; Ünlü, Mehmet Zübeyir; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
Lojistik sektörünün son yıllarda hızla büyümesi, depo alanlarının genişlemesine ve kullanılan ekipman sayısının artmasına neden olarak iş kazalarının artmasına neden olmuştur. Depolarda meydana gelen iş kazaları çoğunlukla dikkatsizlik, yorgunluk, yoğun iş temposu, bireysel davranışlar, deneyim eksikliği, yetersiz eğitim ve çalışanların ihmalinden kaynaklanmaktadır. Bu nedenle depo içi emniyetin sağlanması için insan ve ekipman etkileşimini gerçek zamanlı olarak tahmin eden bir sisteme ihtiyaç vardır. Tez kapsamında depo ortamlarında iş güvenliğini artıracak nesne algılama, nesne izleme, eylem algılama ve alarm sınıflandırma bileşenlerinden oluşan kapsamlı bir video gözetim sistemi önerilmektedir. Bu sistemde nesne tespit metodolojisi olarak kullanılan YOLOv7, nesneleri tek bir ağ geçişinde hızlı ve doğru bir şekilde tespit eden bir derin öğrenme modelidir. Deep SORT ise izlenen her nesneye benzersiz bir tanımlayıcı atayan ve izleme sırasında derin öğrenmeyi kullanan bir bilgisayarlı görme izleme teknolojisidir. Sistemin eylem algılama kısmı, anormallikleri ve potansiyel riskleri tanıyarak eylemleri ve hareketleri tanımlamak ve analiz etmek için tasarlanmıştır. Bu bölümde insan ve ekipmanların hız, etiket, hareket yönü ve koordinat bilgileri kullanılarak çeşitli alarm seviyeleri tahmin edilmekte ve bu tahmini alarm seviyelerine bağlı olarak da farklı alarm seviyeleri üretilmektedir. Gerçek zamanlı müdahale ve yüksek başarı oranıyla çalışabilme gibi teknolojik yeterlilikleri sağlaması test edilen bu sistem sayesinde depolardaki kazalar tahmin edilecek, alarmlar üretilecek ve olası iş kazaları büyük ölçüde önlenebilecektir.
A Real-Time 3d Scanner System Developed With Combined Usage of Active Triangulation and Time of Flight Sensors
(01. Izmir Institute of Technology, 2023) Şi̇mşek, Burak; Şi̇mşek, Burak; Gümüşteki̇n, Şevket; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
Bu çalışma, aktif üçgenleme ve uçuş zamanı sensörü teknolojilerini birleştiren gerçek zamanlı bir 3 boyutlu tarayıcı sisteminin geliştirilmesini ve değerlendirilmesini sunmaktadır. Bu araştırmanın amacı, nesnelerin hassas 3 boyutlu modellerini yakalayabilen sağlam ve verimli bir sistem tasarlamaktır. Önerilen sistem, yapılandırılmış ışık desenlerinin hedefe yansıtılmasını ve yansıyan desenlerin bir kamera kullanılarak yakalanmasını içeren aktif üçgenlemeyi kullanır. Ek olarak, ışığın hedefe gidip geri gitmesi için geçen süreyi ölçen bir uçuş süresi (TOF) sensörü dahil edilerek derinlik bilgisinin elde edilmesi sağlanır. Sistemin uygulanması donanım bileşenlerinin, kalibrasyon prosedürlerinin ve yazılım algoritmalarının entegrasyonunu içerir. Donanım kurulumunda yüksek çözünürlüklü bir kamera, lazer projektörler ve bir TOF sensörü bulunur. Kamera, projektör ve TOF sensörü arasında doğru eşleşmeyi sağlamak için kalibrasyon teknikleri kullanılır. Elde edilen verileri işlemek ve tam bir 3 boyutlu model oluşturmak için nokta bulutu kaydı ve yüzey yeniden yapılandırması gibi çeşitli hesaplama algoritmaları kullanılır. Geliştirilen sistemin performans değerlendirmesi, farklı karmaşıklık düzeylerine sahip farklı nesneler üzerinde yapılan testleri içermektedir. Sonuçlar, sistemin ayrıntılı 3D modelleri gerçek zamanlı olarak yüksek doğruluk ve çözünürlükle yakalama yeteneğini göstermektedir. Sistemin ortam aydınlatması ve nesne yansıması gibi çevresel faktörlere karşı dayanıklı olduğu görülmektedir. Bu çalışmanın bulguları, gerçek zamanlı 3 boyutlu model edinimi için pratik ve etkili bir yaklaşım sunarak 3 boyutlu tarama alanına katkı sağlamaktadır. Geliştirilen sistemin hızlı ve hassas 3B tarama işleminden faydalabilecek tüm araştırma ve endüstri alanlarında uygulanma potansiyeli vardır.
Design and Modelling of Ring Resonators: Feasibility Study for Temperature Sensors
(01. Izmir Institute of Technology, 2023) Yüksel Aldoğan, Kıvılcım; Yüksel Aldoğan, Kıvılcım; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
Ring resonator structures have garnered significant attention in the field of photonics due to their versatile nature. Temperature can influence the refractive index of the materials used in the resonator, which in turn affects the resonance wavelengths and transmission properties. The purpose of this study was to examine how temperature variations impact the performance of ring resonators. By measuring the resonator response at different temperatures and analyzing the data, it is aimed to understand the thermal behavior of the ring resonators, assess their suitability for practical applications and lays the foundation for further advancements in the design and optimization of ring resonator-based systems. Within the scope of this thesis, all-pass and add-drop type ring resonators have been produced, and measurements have been carried out at 25 and 35 degrees Celsius. In addition, numerical calculations and simulations of the ring resonators have been performed and compared with experimental data.
Machine Learning Based Resource Allocation for Massive Mimo Systems
(01. Izmir Institute of Technology, 2023) Özbek, Berna; Özbek, Berna; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
Cell-free massive MIMO communication systems is a promising technology that uses access-points(APs) deployed throughout the coverage area instead of usual cellular systems with centralized BS to serve multiple users simultaneously. By exploiting the large number of antennas and adopting advanced signal processing techniques, cell-free massive MIMO can mitigate inter-user interference and enhance the overall system performance. Optimal power allocation plays a crucial role in maximizing the spectral and energy efficiency of wireless networks. By intelligently allocating transmit power to different users, a balance between maximizing the system throughput and minimizing the total energy consumption can be achieved. In addition, user-centric clustering(UCC) is also a key technique to improve the performance of cell-free massive MIMO systems. This technique aims to pair user equipments (UEs) with appropriate APs to facilitate efficient resource allocation and interference management. In this thesis, cell-free mMIMO communication system is investigated through user-centric clustering and power allocation. The power allocation optimization problem is formulated to maximize energy efficiency of cell-free mMIMO systems and solved by using interior-point algorithm. User-centric clustering algorithm is proposed by disabling the non-master APs that are serving only one user. This additional feature aims to reduce total power consumption of the system without sacrificing the advantages of the cell-free mMIMO communication systems. Additionally, we propose a machine learning(ML) approach to reduce the computation time required for power allocation optimization. Through extensive simulations, we demonstrate the effectiveness of the proposed algorithms in achieving significant gains in spectral and energy efficiency in cell-free massive MIMO systems. The results highlight the importance of optimal power allocation and user-centric clustering to design an efficient cell-free mMIMO systems through machine learning approach.
Deep Learning Based Real-Time Sequential Facial Expression Analysisusing Geometric Features
(01. Izmir Institute of Technology, 2023) Gümüş, Abdurrahman; Gümüş, Abdurrahman; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
In this thesis, macro and micro facial expression sequences from various datasets are trained using neural networks to classify them in one of the basic emotions. In macro expression experiments, for each frame of the sequences facial landmarks are extracted using MediaPipe FaceMesh solution and geometric features using both spatial and temporal information based on these landmarks are created. To classify the features, ConvLSTM2D followed by multilayer perceptron blocks are used. In order to achieve real time classification performance, all algorithms are implemented compatible to run on GPU. The proposed method for macro expressions is tested with CK+, Oulu-CASIA VIS, Oulu-CASIA NIR and MMI datasets. In micro expression experiments, apart from geometric features also blendshape features provided by MediaPipe are used. In order to improve classification performance, Phase-Based Video Motion Processing technique is used to magnify subtle facial movements of micro expressions. Experiments are conducted separately on same classification layers that consist of ConvLSTM1D followed by multilayer perceptron blocks. The proposed method for micro expressions is tested with SAMM and CASME II datasets. The datasets utilized in this study were accessed upon signing corresponding license agreements. Each dataset is specifically designated for academic purposes and is made available under these agreements. Only data from subjects who provided consent for their information to be used in publications was included in the thesis. The license agreements for each dataset can be found in the appendices section.
Real Time Texture Mapped 3d Reconstruction Using a Setup With Mirrors and Controlled Lighting
(01. Izmir Institute of Technology, 2021) Gümüştekin, Şevket; Yazar, Barış; Gümüştekin, Şevket; 01. Izmir Institute of Technology; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering
The purpose of this thesis is to create a 3D reconstruction framework that can be used in real time. This is accomplished using a parallel implementation of a shape from silhouette (SFS) algorithm. The number of silhouettes employed in reconstruction makes a major contribution to the quality at the expense of reduced speed. In order to keep this number at the minimum level without extensively sacrificing quality, a novel system is introduced. This system is based on evenly distributed viewpoints using a regular tetrahedron structure. In order to reduce cost and simplify camera calibration, we used a single camera setup with three mirrors thus creating virtual cameras for three of four viewpoints. Besides taking advantage of minimal number of viewpoints, parallel hardware is utilized to achieve real time speed. A volume based SFS algorithm is implemented using CUDA parallel computing platform.
Effects of Channel Errors on Coded Speech Communication in Software Defined Radio
(01. Izmir Institute of Technology, 2021) Atakan, Barış; Atakan, Barış; 03.05. Department of Electrical and Electronics Engineering; 03. Faculty of Engineering; 01. Izmir Institute of Technology
This thesis investigates the performance of software defined radio in reconstruction of a coded speech signal in presence of channel errors, taking into account end to end communication. At the transmitter, the recorded author's voice is encoded using linear predictive coding algorithm, where speech parameters such as linear predicted coefficients, pitch, voicing and gain parameters, are extracted from the speech signal. These parameters are sent to linear predictive decoder to model the speech signal from its parameters. The output from source encoder is sent to channel encoder such that, the digital encoded speech data is protected using linear block codes algorithm to provide error protection to bit stream before transmission to the communication channel. Receiver's blocks or algorithms to curb multipath interference, intersymbol interference, timing offset and carrier offset are based on adaptation. Steepest descent adaptive algorithm is used to design the entire algorithms to run the software receiver. Therefore, steepest descent algorithm is implemented in down conversion, carrier recovery, clock recovery, equalization and correlation. All algorithms running the software receiver are theoretically discussed and implemented in MATLAB software. The results obtained after simulating the whole receiver block in terms of symbol error rate, mean square error and bit error rate are recorded and analyzed to investigate how channel errors affect software receiver while reconstructing a coded speech signal.

Master Degree / Yüksek Lisans Tezleri

Browse

Filters

Settings

Sort By

Results per page

Search Results