Чтение файлов композитного документа V2 Документ (.msg) в ubuntu
У меня есть большой дамп данных из учетной записи электронной почты Outlook, которая полностью входит в файлы .msg. Быстрый вызов метода файла ubuntu показал, что они являются документами Document Document V2 (независимо от того, что это означает). Мне бы очень хотелось иметь возможность читать эти файлы в виде открытого текста. Возможно ли это вообще?
Обновление. Оказывается, было невозможно полностью сделать то, что я хотел для крупномасштабного интеллектуального анализа данных на таких файлах, которые были обломками. Если вы столкнулись с той же проблемой, я создал библиотеку для решения этой проблемы. https://github.com/Slater-Victoroff/msgReader
Документация невелика, но это довольно маленькая библиотека, поэтому она должна быть понятной.
Ответы
Ответ 1
Сегодня я столкнулся с той же проблемой. Я не нашел никакой информации о формате файла, но было возможно извлечь необходимую информацию из файла с помощью строк и grep:
strings -e l *.msg | grep pattern
The -e l (что маленький L) преобразуется из UTF-16.
Это будет работать, только если вы можете grep данные, которые вам нужны из файла (т.е. все обязательные строки содержат стандартную строку или шаблон).