TR Dizin İndeksli Yayınlar / TR Dizin Indexed Publications Collection
Permanent URI for this collectionhttps://hdl.handle.net/11147/7149
Browse
6 results
Search Results
Now showing 1 - 6 of 6
Article Citation - WoS: 2Citation - Scopus: 2Enrichment of Turkish Question Answering Systems Using Knowledge Graphs(Tubitak Scientific & Technological Research Council Turkey, 2024) Ciftci, Okan; Soygazi, Fatih; Tekir, SelmaRecent capabilities of large language models (LLMs) have transformed many tasks in Natural Language Processing (NLP), including question answering. The state-of-the-art systems do an excellent job of responding in a relevant, persuasive way but cannot guarantee factuality. Knowledge graphs, representing facts as triplets, can be valuable for avoiding errors and inconsistencies with real-world facts. This work introduces a knowledge graph-based approach to Turkish question answering. The proposed approach aims to develop a methodology capable of drawing inferences from a knowledge graph to answer complex multihop questions. We construct the Beyazperde Movie Knowledge Graph (BPMovieKG) and the Turkish Movie Question Answering dataset (TRMQA) to answer questions in the movie domain. We evaluate our proposed question answering pipeline against a baseline study. Furthermore, we compare it with a question answering system built upon GPT-3.5 Turbo to answer the 1-hop questions from TRMQA. The experimental results confirm that link prediction on a knowledge graph is quite effective in answering questions that require reasoning paths. Finally, we provide insights into the pros and cons of the provided solution through a qualitative study.Research Project Haber Zincirlerinde Tutarlılık ve Güvenilirlik Değerlendirmesi(2017) Tekir, SelmaÇok hızlı ve büyük miktarda haber akısının oldugu günümüzde haber analizi büyük bir gereksinimdir. Haberi takip etmek, dogrulugunu denetlemek, yorumlamak özellikle kurumsal bazda çok önemlidir. Bunun yapılabilmesi bir bilgi isleyis döngüsünün çalıstırılması ile mümkündür. Bilginin toplanması, hedefler dogrultusunda islenip analiz edilerek ise yarar bilgiye dönüstürülmesi beklenmektedir. Projenin amacı haber güvenilirliginin ölçülüp degerlendirilmesine yönelik bir yaklasım gelistirmektir. Haber güvenilirligi haberalma faaliyetinin olmazsa olmazları arasındadır. Kurumsallasmıs medya kurulusları (BBC, The New York Times vb.) hâlihazırda çok büyük miktarda yapısal veri sunmaktadır. Haberi dogrulama, kaynak geçerligini denetleme gereksinimi had safhadadır. Projede bir haber zinciri üzerinde güvenilirlik ölçümü ve degerlendirmesi yapılacaktır. Projede haber zinciri, noktaları birlestirelim (connecting the dots) yaklasımı ile karsılanmaktadır. Noktaları birlestirelim yaklasımı, haber zincirini biri baslangıç digeri bitis noktası olarak tanımlanabilecek iki haber belgesini tutarlı bir sekilde birlestiren haber belgeleri dizisi olarak tanımlamaktadır. Güvenilirlik degerlendirmesi ele alınacak haber zincirinin tutarlılık degerlendirmesi ile birlikte gerçeklestirilecektir. Haber güvenilirligi; haberin dogrulugu, fikirlerden ziyade somut gerçeklere dayanmasıdır. Haber kaynagının güvenilirligi ise iki temel boyutta ele alınmaktadır: Haber kaynagına duyulan güven ve kaynagın o konudaki uzmanlıgı [21]. Haber güvenilirliginin ölçümünde ?Gerçegi fikirden ayırıyor mu? ve ?Fikirlere mi gerçeklere mi dayanmakta? faktörleri baz alınacaktır. Fikir madenciligi kullanılarak gerçekler fikirlerden ayırdedilmeye çalısılacaktır. Haber zincirini olusturan belgelerin gerçegi fikirden ayırıp ayırmadıkları, belge yapısındaki gerçek/fikir tümcelerinin organizasyonu irdelenecektir. Belgelerdeki gerçek/fikir yapılanmasına ek olarak gerçek/fikir oranı da tespit edilip haber zincirini olusturan dokümanların bu açıdan bütünsellik tasıyıp tasımadıgı sınanacaktır. Ayrıca ardısık dokümanlar arasındaki geçisin gerçek/fikir bilgisine dayalı bir degerlendirme mekanizması kurulacaktır. Güvenilirlik kavramının ölçümüne iliskin benzer bir yaklasım mevcut olmadıgından proje oldukça yenilikçidir. Haber zincirinin güvenilirlik degerlendirmesi tutarlılık degerlendirmesinden bagımsız degildir. Haber zinciri baglamında tutarlılıgı karsılamak üzere yöntemler mevcuttur ancak yeni arayıslara gereksinim vardır. Proje kapsamında tutarlı haber zinciri elde etmeyi saglayacak yeni bir yöntem gelistirilecektir. Gelistirilecek yöntem tutarlı haber zincirinin kafes (lattice) yapısı ile iyi temsil edilecegi sezgisine dayanmaktadır. Kafes yapısının dügümleri, haber belgelerinde geçen sözcükler ve bu sözcüklerin geçtigi haber belgeleri ikilileri ile temsil edilecektir. Tutarlı haber zincirlerine ait kafeslerin tam kafes niteligine sahip olması beklenmektedir. Zaki ve Ramakrishnan [17]?ın kapalı tanım kümesi kafesi (closed description set lattice) olusturma algoritması bu amaçla kullanılarak iyi haber zincirleri elde edilip edilmeyecegi sınanacaktır. Önerilen yöntem güvenilirlik degerlendirmesi yapılacak haber zincirlerini üretmesi açısından önemli ve aynı ölçüde özgündür. Proje tamamlandıgında elde edilecek çıktıların bilgi kesfi ve veri madenciligi alanında bilimsel katkı sunması beklenmektedir. Önerilen tekniklerin olgunlasması bunların yeni teknolojilerde kullanılmasını mümkün hale getirecektir. Ayrıca haberalma toplumun sosyo-ekonomik yapısında etkili olan bir islevdir. Özellikle sosyal medya bu alanı yeniden sekillendirmektedir. Bu alanda, alınan haberlerin dogru sekilde islenmesi ve haber güvenilirligi konusunda farkındalıgın artırılması büyük önem arz etmektedir.Article Gender Bias in Occupation Classification From the New York Times Obituaries(Dokuz Eylül Üniversitesi, 2022) Atik, Ceren; Tekir, SelmaTechnological developments such as artificial intelligence can strengthen social prejudices prevailing in society, regardless of the developer's intention. Therefore, researchers should be aware of the ethical issues that may arise from a developed product/solution. In this study, we investigate the effect of gender bias on occupational classification. For this purpose, a new dataset was created by collecting obituaries from the New York Times website and is provided in two different versions: With and without gender indicators. Category distributions from this dataset show that gender and occupation variables have dependence. Thus, gender affects occupation classification. To test the effect, we perform occupation classification using SVM (Support Vector Machine), HAN (Hierarchical Attention Network), and DistilBERT-based classifiers. Moreover, to get further insights into the relationship of gender and occupation in classification problems, a multi-tasking model in which occupation and gender are learned together is evaluated. Experimental results reveal that there is a gender bias in job classification.Article Asking the Right Questions To Solve Algebraic Word Problems(TÜBİTAK - Türkiye Bilimsel ve Teknolojik Araştırma Kurumu, 2022) Çelik, Ege Yiğit; Orulluoğlu, Zeynel; Mertoğlu, Rıdvan; Tekir, SelmaWord algebra problems are among challenging AI tasks as they combine natural language understanding with a formal equation system. Traditional approaches to the problem work with equation templates and frame the task as a template selection and number assignment to the selected template. The recent deep learning-based solutions exploit contextual language models like BERT and encode the natural language text to decode the corresponding equation system. The proposed approach is similar to the template-based methods as it works with a template and fills in the number slots. Nevertheless, it has contextual understanding because it adopts a question generation and answering pipeline to create tuples of numbers, to finally perform the number assignment task by custom sets of rules. The inspiring idea is that by asking the right questions and answering them using a state-of-the-art language model-based system, one can learn the correct values for the number slots in an equation system. The empirical results show that the proposed approach outperforms the other methods significantly on the word algebra benchmark dataset alg514 and performs the second best on the AI2 corpus for arithmetic word problems. It also has superior performance on the challenging SVAMP dataset. Though it is a rule-based system, simple rule sets and relatively slight differences between rules for different templates indicate that it is highly probable to develop a system that can learn the patterns for the collection of all possible templates, and produce the correct equations for an example instance.Article Sales History-Based Demand Prediction Using Generalized Linear Models(Süleyman Demirel Üniversitesi, 2019) Özenboy, Başar; Tekir, SelmaIt’s vital for commercial enterprises to accurately predict demand by utilizing the existing sales data. Such predictive analytics is a crucial part of their decision support systems to increase the profitability of the company.In predictive data analytics, the branch of regression modeling is used to predict a numerical response variable like sale amount. In this category, linear models are simple and easy to interpret yet they permit generalization to very powerful and flexible families of models which are called Generalized linear models (GLM). The generalization potential over simple linear regression can be explained twofold: First, GLM relax the assumption of normally distributed error terms. Moreover, the relationship of the set of predictor variables and the response variable could be represented by a set of link functions rather than the sole choice of the identity function. This work models the sales amount prediction problem through the use of GLM. Unique company sales data are explored and the response variable, sale amount is fitted to the Gamma distribution. Then, inverse link function, which is the canonical one in the case of gamma-distributed response variable is used. The experimental results are compared with the other regression models and the classification algorithms. The model selection is performed via the use of MSE and AIC metrics respectively. The results show that GLM is better than the linear regression. As for the classification algorithms, Random Forest and GLM are the top performers. Moreover, categorization on the predictor variables improves model fitting results significantly.Article Estimating Spatiotemporal Focus of Documents Using Entropy With Pmi(Türkiye Klinikleri Journal of Medical Sciences, 2020) Yaşar, Damla; Tekir, SelmaMany text documents are spatiotemporal in nature, i.e. contents of a document can be mapped to a specific time period or location. For example, a news article about the French Revolution can be mapped to year 1789 as time and France as place. Identifying this time period and location associated with the document can be useful for various downstream applications such as document reasoning or spatiotemporal information retrieval. In this paper, temporal entropy with pointwise mutual information (PMI) is proposed to estimate the temporal focus of a document. PMI is used to measure the association of words with time expressions. Moreover, a word’s temporal entropy is considered as a weight to its association with a time point and a single time point with the highest overall score is chosen as the focus time of a document. The proposed method is generic in the sense that it can also be applied for spatial focus estimation of documents. In the case of spatial entropy with PMI, PMI is used to calculate the association between words and place entities. The effectiveness of our proposed methods for spatiotemporal focus estimation is evaluated on diverse datasets of text documents. The experimental evaluation confirms the superiority of our proposed temporal and spatial focus estimation methods.
