Исследователи в FAIR проанализировали топ-3 популярных open domain QA датасета на наличие пересечений. В 60-70% ответы на вопросы в тестовой выборке были в обучающей выборке. 30% тестовых вопросов имели дубликат в обучающей выборке. Задача open domain вопросно-ответных систем предполагает, что модель умеет отвечать на новые вопросы с помощью знаний, выученных во время обучения. Кроме того, модель должна уметь генерализовать имеющиеся знания для ответа на новые вопросы.