Ответ 1
Как насчет того, чтобы использовать файлы тестового набора ICU? Я не знаю, нужны ли они для вашего теста, но они, по-видимому, имеют довольно полный файл /UTF файлов: Ссылка на репо для тестовых файлов ICU
Для макетирования у нас есть наш знаменитый текст "Lorem ipsum", чтобы проверить, как он выглядит.
Я ищу набор файлов, содержащих текст, закодированный с несколькими различными кодировками, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.
Пример:Наличие ISO 8859-1
закодированного тестового файла и Windows-1252
закодированного тестового файла. Windows-1252 должен инициировать различия в области 80 16 - 9F 16. Другими словами, он должен содержать по крайней мере один символ этой области, чтобы отличить его от ISO 8859-1.
Возможно, лучший набор тестовых файлов - это то, где тестовый файл для каждой кодировки содержит все свои символы один раз. Но, может быть, я не знаю, что это такое?: -)
Есть ли такой набор тестовых файлов для проблем с кодировкой символов?
Как насчет того, чтобы использовать файлы тестового набора ICU? Я не знаю, нужны ли они для вашего теста, но они, по-видимому, имеют довольно полный файл /UTF файлов: Ссылка на репо для тестовых файлов ICU
Статья в Википедии о diacritics довольно обширна, к сожалению, вам нужно извлечь эти символы вручную. Также могут существовать некоторые мнемоники для каждого языка. Например, на польском языке мы используем:
Zażółć gęślą jaźń
который содержит все 9 польских диакритик в одном правильном предложении. Еще один полезный подсказку поиска - pangrams: предложения, использующие каждую букву алфавита хотя бы один раз:
на испанском языке, "El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja". (все 27 букв и диакритики).
по-русски: "Все 33 буквы русской кириллицы".
Список pangrams содержит исчерпывающее резюме. Любой, кто хочет обернуть это простым:
public interface NationalCharacters {
String spanish();
String russian();
//...
}
Библиотека
Я не знаю каких-либо полных текстовых документов, но если вы можете начать с простого обзора всех наборов символов, есть некоторые файлы, доступные в ftp.unicode.org server
Здесь, например, WINDOWS-1252. Первый столбец представляет собой шестнадцатеричное значение символа, а второе - значение юникода.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
Хорошо, я использовал онлайн-инструмент для создания моих текстовых наборов char из Lorem Ipsum. Я верю, что это может вам помочь. У меня нет одного, у которого есть все разные кодировки на одной странице.