Python - Сжатие строки Ascii

Я ищу способ сжать строку, основанную на ascii, любую помощь?

Мне также нужно его распаковать. Я пробовал zlib, но без помощи.

Что я могу сделать, чтобы сжать строку на меньшую длину?

код:

def compress(request):
    if request.POST:
        data = request.POST.get('input')
        if is_ascii(data):
            result = zlib.compress(data)
            return render_to_response('index.html', {'result': result, 'input':data}, context_instance = RequestContext(request))
        else:
            result = "Error, the string is not ascii-based"
            return render_to_response('index.html', {'result':result}, context_instance = RequestContext(request))
    else:
        return render_to_response('index.html', {}, context_instance = RequestContext(request))

Ответы

Ответ 1

Использование сжатия не всегда уменьшает длину строки!

Рассмотрим следующий код:

import zlib
import bz2

def comptest(s):
    print 'original length:', len(s)
    print 'zlib compressed length:', len(zlib.compress(s))
    print 'bz2 compressed length:', len(bz2.compress(s))

Попробуйте это на пустой строке;

In [15]: comptest('')
original length: 0
zlib compressed length: 8
bz2 compressed length: 14

So zlib создает дополнительные 8 символов и bz2 14. Методы сжатия обычно помещают "заголовок" перед сжатыми данными для использования программой декомпрессии. Этот заголовок увеличивает длину вывода.

Позвольте проверить одно слово;

In [16]: comptest('test')
original length: 4
zlib compressed length: 12
bz2 compressed length: 40

Даже если вы выберете длину заголовка, сжатие не сделает слово короче. Это потому, что в этом случае сжиматься немного. Большинство символов в строке встречаются только один раз. Теперь за короткое предложение;

In [17]: comptest('This is a compression test of a short sentence.')
original length: 47
zlib compressed length: 52
bz2 compressed length: 73

Опять же, результат сжатия больше входного текста. Из-за ограниченной длины текста в нем мало повторений, поэтому он не будет хорошо сжиматься.

Вам нужен довольно длинный блок текста для сжатия, который действительно работает;

In [22]: rings = '''
   ....:     Three Rings for the Elven-kings under the sky, 
   ....:     Seven for the Dwarf-lords in their halls of stone, 
   ....:     Nine for Mortal Men doomed to die, 
   ....:     One for the Dark Lord on his dark throne 
   ....:     In the Land of Mordor where the Shadows lie. 
   ....:     One Ring to rule them all, One Ring to find them, 
   ....:     One Ring to bring them all and in the darkness bind them 
   ....:     In the Land of Mordor where the Shadows lie.'''

In [23]: comptest(rings)                       
original length: 410
zlib compressed length: 205
bz2 compressed length: 248

Ответ 2

Вам даже не нужны данные, чтобы быть ascii, вы можете кормить zlib чем угодно

>>> import zlib
>>> a='aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa' # + any binary data you want
>>> print zlib.compress(a)
x�KL$
�
>>>

Что вы, вероятно, хотите здесь, - сжатые данные для строки ascii? Я здесь? Если это так - вы должны знать, что у вас очень маленький алфавит для кодирования сжатых данных = > , чтобы у вас было больше символов.

Например, чтобы закодировать двоичные данные в base64 (вы получите строку ascii), но вы будете использовать на 30% больше места для этого