Reproducibility Assessment of Research Code Repositories

dc.contributor.advisor Tekir, Selma
dc.contributor.author Akdeniz, Eyüp Kaan
dc.date.accessioned 2023-11-02T08:13:50Z
dc.date.available 2023-11-02T08:13:50Z
dc.date.issued 2023
dc.description Thesis (Master)--İzmir Institute of Technology, Computer Engineering, Izmir, 2023 en_US
dc.description Includes bibliographical references (leaves. 47-56) en_US
dc.description Text in English; Abstract: Turkish and English en_US
dc.description.abstract The growth in machine learning research has not been accompanied by a corresponding improvement in the reproducibility of the results. This thesis presents a novel, fully-automated end-to-end system that evaluates the reproducibility of machine learning studies based on the content of the associated GitHub project's Readme file. This evaluation relies on a readme template derived from an analysis of popular repositories. The template suggests a structure that promotes reproducibility. Our system generates a reproducibility score for each Readme file assessed, and it employs two distinct models, one based on section classification and the other on hierarchical transformers. The experimental outcomes indicate that the system based on section similarity outperforms the hierarchical transformer model. Furthermore, it has a superior edge concerning explainability, as it allows for a direct correlation of the scores with the respective sections of the Readme files. The proposed framework provides an important tool for improving the quality of code sharing and ultimately helps to increase reproducibility in machine learning research. en_US
dc.description.abstract Makine öğrenimi araştırmalarındaki büyümeye, sonuçların tekrar üretilebilirliğinde buna karşılık gelen bir gelişme eşlik etmemiştir. Bu tez, ilişkili GitHub projesinin Readme dosyasının içeriğine dayalı olarak makine öğrenmesi çalışmalarının yeniden üretilebilirliğini değerlendiren yeni, tam otomatik bir uçtan uca sistem sunmaktadır. Bu değerlendirme, popüler depoların analizinden türetilen bir readme şablonuna dayanmaktadır. Şablon, yeniden üretilebilirliği teşvik eden bir yapıyı önerir. Sistemimiz, değerlendirilen her Readme dosyası için bir yeniden üretilebilirlik puanı üretir ve biri bölüm sınıflandırmasına, diğeri hiyerarşik dönüştürücülere dayanan iki farklı model kullanır. Deneysel sonuçlar, bölüm benzerliğine dayalı sistemin hiyerarşik dönüştürücü modelinden daha iyi performans gösterdiğini göstermektedir. Ayrıca, skorların Readme dökümanlarının ilgili bölümleriyle doğrudan ilişkilendirilebilmesi açısından üstün bir açıklanabilirliğe sahiptir. Önerilen çerçeve, kod paylaşımının kalitesini artırmak için önemli bir araç sunmakta ve sonuçta makine öğrenimi araştırmalarında yeniden üretilebilirliğin arttırılmasına yardımcı olmaktadır. en_US
dc.format.extent x, 59 leaves
dc.identifier.uri https://hdl.handle.net/11147/13922
dc.language.iso en en_US
dc.publisher 01. Izmir Institute of Technology en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Natural language processing en_US
dc.subject Machine learning en_US
dc.subject Source codes en_US
dc.subject Code repositories en_US
dc.title Reproducibility Assessment of Research Code Repositories en_US
dc.title.alternative Araştırma kod depolarının yeniden üretilebilirlik değerlendirmesi en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.author.id 0000-0002-5895-0821
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department Thesis (Master)--İzmir Institute of Technology, Computer Engineering en_US
gdc.description.publicationcategory Tez en_US
gdc.description.scopusquality N/A
gdc.description.wosquality N/A
gdc.identifier.yoktezid 822886 en_US
relation.isAuthorOfPublication.latestForDiscovery 57639474-3954-4f77-a84c-db8a079648a8
relation.isOrgUnitOfPublication.latestForDiscovery 9af2b05f-28ac-4014-8abe-a4dfe192da5e

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Name:
10562893.pdf
Size:
960.56 KB
Format:
Adobe Portable Document Format
Description:
Master Thesis

License bundle

Now showing 1 - 1 of 1
Loading...
Name:
license.txt
Size:
3.2 KB
Format:
Item-specific license agreed upon to submission
Description: