Как получить список названий всех статей Википедии

Я хотел бы получить список всех названий всех статей в Википедии. Я знаю, что есть два возможных способа получить контент из вики-ссылки, основанной на Викимедиа. Один из них будет API, а другой - дампом базы данных.

Я бы предпочел не загружать дамп wiki. во-первых, потому что это огромно, во-вторых, потому что я не очень разбираюсь в запросах баз данных. Проблема с API, с другой стороны, заключается в том, что я не мог понять, как получить только список названий статей, и даже если для этого потребуется 4 миллиона запросов, которые, вероятно, будут заблокированы от любых дальнейших запросов. Поэтому мой вопрос: 1. есть ли способ получить только заголовки статей wikipedia через API и 2. есть ли способ объединить несколько запросов/запросов в один. Или мне действительно нужно загрузить дамп википедии?

Ответы

Ответ 1

Модуль API allpages позволяет сделать именно это. Его ограничение (при установке aplimit=max) равно 500, поэтому для запроса всех статей 4.5M вам потребуется около 9000 запросов.

Но дамп - лучший выбор, потому что существует много разных дампов, включая all-titles-in-ns0, которые, как следует из его названия, содержат именно то, что вы хотите (59 MB gzipped text).