Natural Language Processing Faculty Publications

Submissions from 2023 2023

On the Robustness of Arabic Speech Dialect Identification, Peter Sullivan, Abdel Rahim Elmadany, and Muhammad Abdul-Mageed

PDF

Automating Quality Assessment of Medical Evidence in Systematic Reviews: Model Development and Validation Study, Simon Šuster, Timothy Baldwin, Jey Han Lau, Antonio Jimeno Yepes, David Martinez Iraola, Yulia Otmakhova, and Karin Verspoor

PDF

Analysis of predictive performance and reliability of classifiers for quality assessment of medical evidence revealed important variation by medical area, Simon Šuster, Timothy Baldwin, and Karin Verspoor

PDF

N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition, Bashar Talafha, Abdul Waheed, and Muhammad Abdul-Mageed

PDF

ArTST: Arabic Text and Speech Transformer, Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, and Hanan Al Darmaki

Hybrid Uncertainty Quantification for Selective Text Classification in Ambiguous Tasks, Artem Vazhentsev, Gleb Kuzmin, Akim Tsvigun, Alexander Panchenko, Maxim Panov, Mikhail Burtsev, and Artem Shelmanov

Efficient Out-of-Domain Detection for Sequence to Sequence Models, Artem Vazhentsev, Akim Tsvigun, Roman Vashurin, Sergey Petrakov, Daniil Vasilev, Maxim Panov, Alexander Panchenko, and Artem Shelmanov

A Robust Dialect-Aware Arabic Speech Recognition System, Abdul Waheed, Bashar Talafha, Peter Sullivan, Abdel Rahim Elmadany, and Muhammad Abdul-Mageed

Document-Level Machine Translation with Large Language Models, Longyue Wang, Chenyang Lyu, Tianbo Ji, Zhirui Zhang, Dian Yu, Shuming Shi, and Zhaopeng Tu

PDF

Collective Human Opinions in Semantic Textual Similarity, Yuxia Wang, Shimin Tao, Ning Xie, Hao Yang, Timothy Baldwin, and Karin Verspoor

LLM-powered Data Augmentation for Enhanced Crosslingual Performance, Chenxi Whitehouse, Monojit Choudhury, and Alham Fikri Aji

Out-of-Distribution Generalization in Natural Language Processing: Past, Present, and Future, Linyi Yang, Yaoxiao Song, Xuan Ren, Chenyang Lyu, Yidong Wang, Jingming Zhuo, Lingqiao Liu, and Jindong Wang

Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism, Mengyu Ye, Tatsuki Kuribayashi, Jun Suzuki, Goro Kobayashi, and Hiroaki Funayama

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting, Zheng Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M. Saiful Bari, and Lintang Sutawika

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages, Zheng Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Arjun Subramonian, Holy Lovenia, Samuel Cahyawijaya, and Genta Indra Winata

PDF

Preface: Special issue on NLP approaches to offensive content online, Marcos Zampieri, Isabelle Augenstein, Siddharth Krishnan, Joshua Melton, and Preslav Nakov

PDF

Target-Based Offensive Language Identification, Marcos Zampieri, Skye Morgan, Kai North, Tharindu Ranasinghe, Austin Simmons, Paridhi Khandelwal, Sara Rosenthal, and Preslav Nakov

PDF

OffensEval 2023: Offensive language identification in the age of Large Language Models, Marcos Zampieri, Sara Rosenthal, Preslav Nakov, Alphaeus Dmonte, and Tharindu Ranasinghe

The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages, Chiyu Zhang, Khai Duy Doan, Qisheng Liao, and Muhammad Abdul-Mageed

Multilingual Large Language Models Are Not (Yet) Code-Switchers, Ruochen Zhang, Samuel Cahyawijaya, Jan Christian Blaise Cruz, Genta Indra Winata, and Alham Fikri Aji

Submissions from 2022 2022

Link

Advances in Preference-based Reinforcement Learning: A Review, Youssef Abdelkareem, Shady Shehata, and Fakhri Karray

Link

One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia, Alham Fikri Aji, Genta Indra Winata, Fajri Koto, Samuel Cahyawijaya, Ade Romadhony, Rahmad Mahendra, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Timothy Baldwin, Jey Han Lau, and Sebastian Ruder

PDF

A Survey on Multimodal Disinformation Detection, Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimitar Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, and Preslav Nakov

PDF

Overview of the WANLP 2022 Shared Task on Propaganda Detection in Arabic, Firoj Alam, Hamdy Mubarak, Wajdi Zaghouani, Giovanni Da San Martino, and Preslav Nakov

PDF

Unsupervised Automatic Speech Recognition: A review, Hanan Aldarmaki, Asad Ullah, Sreepratha Ram, and Nazar Zaki

PDF

What does it take to bake a cake? The RecipeRef corpus and anaphora resolution in procedural text, Biaoyan Fang, Timothy Baldwin, and Karin Verspoor

Link

The Battlefront of Combating Misinformation and Coping with Media Bias, Yi R. Fung, Kung-Hsiang Huang, Preslav Nakov, and Ji Heng

PDF

PASTA: Table-Operations Aware Fact Verification via Sentence-Table Cloze Pre-training, Zihui Gu, Ju Fan, Nan Tang, Preslav Nakov, Xiaoman Zhao, and Xiaoyong Du

Link

Towards Equal Opportunity Fairness through Adversarial Learning, Xudong Han, Timothy Baldwin, and Trevor Cohn

Link

fairlib: A Unified Framework for Assessing and Improving Classification Fairness, Xudong Han, Aili Shen, Yitong Li, Lea Frermann, Timothy Baldwin, and Trevor Cohn

Link

Nonparametric Uncertainty Quantification for Single Deterministic Neural Network, Nikita Kotelevskii, Aleksandr Artemenkov, Kirill Fedyanin, Fedor Noskov, Alexander Fishkov, Artem Shelmanov, Artem Vazhentsev, Aleksandr Petiushko, and Maxim Panov

Link

Cloze Evaluation for Deeper Understanding of Commonsense Stories in Indonesian, Fajri Koto, Timothy Baldwin, and Jey Han Lau

Link

Can Pretrained Language Models Generate Persuasive, Faithful, and Informative Ad Text for Product Descriptions?, Fajri Koto, Jey Han Lau, and Timothy Baldwin

Link

ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus, Ajinkya Kulkarni, Atharva Kulkarni, Sara Abedalmon em Mohammad Shatnawi, and Hanan Aldarmaki

Link

CULG: Commercial Universal Language Generation, Haonan Li, Yameng Huang, Yeyun Gong, Jian Jiao, Ruofei Zhang, Timothy Baldwin, and Nan Duan

Link

MultiSpanQA: A Dataset for Multi-Span Question Answering, Haonan Li, Maria Vasardani, Martin Tomko, and Timothy Baldwin

PDF

IITD at the WANLP 2022 Shared Task: Multilingual Multi-Granularity Network for Propaganda Detection, Shubham Mittal and Preslav Nakov

PDF

Overview of the CLEF-2022 CheckThat! Lab Task 1 on Identifying Relevant Claims in Tweets, Preslav Nakov, Alberto Barrón-Cedeño, Giovanni Da San Martino, Firoj Alam, Mucahid Kutlu, Wajdi Zaghouani, Mucahid Kutlu, Wajdi Zaghouani, Chengkai Li, Shaden Shaar, Hamdy Mubarak, and Alex Nikolov

Link

Overview of the CLEF–2022 CheckThat! Lab on Fighting the COVID-19 Infodemic and Fake News Detection, Preslav Nakov, Alberto Barrón-Cedeño, Giovanni da San Martino, Firoj Alam, Julia Maria Struß, Thomas Mandl, Rubén Míguez, Tommaso Caselli, Mucahid Kutlu, Wajdi Zaghouani, Chengkai Li, Shaden Shaar, Gautam Kishore Shahi, Hamdy Mubarak, Alex Nikolov, Nikolay Babulkov, Yavuz Selim Kartal, Michael Wiegand, Melanie Siegel, and Juliane Köhler

PDF

Overview of the CLEF-2022 CheckThat! Lab Task 2 on Detecting Previously Fact-Checked Claims, Preslav Nakov, Giovanni Da San Martino, Firoj Alam, Shaden Shaar, Hamdy Mubarak, and Nikolay Babulkov

PDF

LED down the rabbit hole: Exploring the potential of global attention for biomedical multi-document summarisation, Yulia Otmakhova, Hung Thinh Truong, Timothy Baldwin, Trevor Cohn, Karin Verspoor, and Jey Han Lau

PDF

GREENER: Graph Neural Networks for News Media Profiling, Panayot Panayotov, Utsav Shukla, Husrev T. Sencar, Mohamed Nabeel, and Preslav Nakov

PDF

Supervised Acoustic Embeddings And Their Transferability Across Languages, Sreepratha Ram and Hanan Aldarmaki

NEWSCLAIMS: A New Benchmark for Claim Detection from News with Attribute Knowledge, Revanth Gangi Reddy, Sai Chetan Chinthakindi, Zhenhailong Wang, Yi R. Fung, Kathryn Conger, Ahmed Elsayed, Martha Palmer, and Preslav Nakov

PDF

Assisting the Human Fact-Checkers: Detecting All Previously Fact-Checked Claims in a Document, Shaden Shaar, Nikola Georgiev, Firoj Alam, Giovanni Da San Martino, Aisha Mohamed, and Preslav Nakov

Link

Detecting and Understanding Harmful Memes: A Survey, Shivam Sharma, Firoj Alam, Md Shad Akhtar, Dimitar Dimitrov, Giovanni Da San Martino, Hamed Firooz, Alon Halevy, Fabrizio Silvestri, Preslav Nakov, and Tanmoy Chakraborty

Link

Optimising Equal Opportunity Fairness in Model Training, Aili Shen, Xudong Han, Trevor Cohn, Timothy Baldwin, and Lea Frermann

PDF

Improving negation detection with negation-focused pre-training, Hung Thinh Truong, Timothy Baldwin, Trevor Cohn, and Karin Verspoor

PDF

Unsupervised Lexical Substitution with Decontextualised Embeddings, Takashi Wada, Timothy Baldwin, Yuji Matsumoto, and Jey Han Lau

PDF

Predicting Publication of Clinical Trials Using Structured and Unstructured Data: Model Development and Validation Study, Siyang Wang, Simon Šuster, Timothy Baldwin, and Karin Verspoor

PDF

Noisy Label Regularisation for Textual Regression, Yuxia Wang, Timothy Baldwin, and Karin Verspoor

PDF

NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages, Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Pascale Fung, Timothy Baldwin, and Jey Han Lau

Submissions from 2021 2021

Link

Balancing out Bias: Achieving Fairness Through Balanced Training, Xudong Han, Timothy Baldwin, and Trevor Cohn

Natural Language Processing Faculty Publications

Submissions from 2023 2023

Submissions from 2022 2022

Submissions from 2021 2021

Browse

Contribute

Links