目录

赫夫曼编码

基本介绍

  1. 赫夫曼码是可变字长编码(VLC)的一种,是Huffman 于 1952 年提出的一种编码方法。
  2. 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。
  3. 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在 20%~90%之间

目前通信领域中信息的处理方式有以下几种:

  1. 定长编码,比如每个字符用8位二进制表示
  2. 变长编码,按照各个字符出现的次数进行编码,原则是出现次数越多的,则编码位数越小,比如空格一般使用0表示。
  3. 前缀编码,每个字符的编码都不能是其他字符编码的前缀,否则有二义性,会匹配到重复的编码,符合此要求的编码称为前缀编码。 赫夫曼编码 符合前缀编码要求,不会造成匹配的二义性,且赫夫曼编码是无损编码。

赫夫曼编码步骤

假设传输的字符串是:”i like like like java do you like a java“ d:1 y:1 u:1 j:2 v:2 o:2 l:4 k:4 e:4 i:5 a:5 :9 // 各个字符对应的个数

  1. 根据各个字符出现的次数构建一颗赫夫曼树,次数作为权值 https://gitee.com/lienhui68/picStore/raw/master/null/20200628002623.png
  2. 根据赫夫曼树规定编码,向左路径为0,向右路径为1 o: 1000 u: 10010 d: 100110 y: 100111 i: 101 a : 110 k: 1110 e: 1111 j: 0000 v: 0001 l: 001 : 01
  3. 原先的字符串经过赫夫曼编码后就变成:10101001101111011110100110111101111010011011110111101000011000011100110011110000110 01111000100100100110111101111011100100001100001110, 长度为133, 压缩了(359-133)/359 = 62.9%

注意: 生成的赫夫曼树根据排序顺序可能不一样,赫夫曼编码也可能不一样,但是wpl是一样的, 都是最小值。

利用赫夫曼编码实现数据压缩以及解压

  1. 根据字符串构建赫夫曼树
  2. 根据赫夫曼树得到字符到赫夫曼编码的映射关系Map<Character, String>
  3. 将字符串用赫夫曼编码进行表示,并使用byte数组进行存储

压缩数据

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
package com.eh.ftd.dsa.ds;

import com.alibaba.fastjson.JSON;
import com.eh.ftd.dsa.ds.utils.ByteUtils;
import com.google.common.collect.Lists;
import com.google.common.collect.Maps;

import java.util.List;
import java.util.Map;

/**
 * 赫夫曼编码
 *
 * @author David Li
 * @create 2020/06/28 18:41
 */
public class HuffmanEncode {

    static class HuffmanEncodeResult {
        // 压缩后的数据
        byte[] data;
        // 赫夫曼编码映射关系 byte(字符字节)->huffmanCode
        String keyJson;

        public byte[] getData() {
            return data;
        }

        public void setData(byte[] data) {
            this.data = data;
        }

        public String getKeyJson() {
            return keyJson;
        }

        public void setKeyJson(String keyJson) {
            this.keyJson = keyJson;
        }
    }

    /**
     * 定义节点
     */
    static class Node {
        int weight;
        byte data;
        Node left;
        Node right;

        public Node(byte data, int weight) {
            this.data = data;
            this.weight = weight;
        }

        /**
         * 创建根节点使用,data为空
         *
         * @param weight
         * @param left
         * @param right
         */
        public Node(int weight, Node left, Node right) {
            this.weight = weight;
            this.left = left;
            this.right = right;
        }

        @Override
        public String toString() {
            return String.valueOf(data);
        }
    }

    /**
     * 赫夫曼编码
     *
     * @param content
     * @return
     */
    public static HuffmanEncodeResult encode(byte[] content) {
        HuffmanEncodeResult res = new HuffmanEncodeResult();
        // 1. 获取字符串的字符->权重 映射关系
        Map<Byte, Integer> characterWeightMap = getCharacterWeightMap(content);
        // 2. 创建赫夫曼树
        Node huffmanTree = createHuffmanTree(characterWeightMap);
        // 3. 根据赫夫曼树获取字符到赫夫曼编码的映射关系
        Map<Byte, String> characterHuffmanCodeMap = getCharacterHuffmanCodeMap(huffmanTree);
        // 4. 根据字符赫夫曼码映射得到原始字符串内容的赫夫曼码
        String huffmanCode = getHuffmanCode(content, characterHuffmanCodeMap);
        // 使用byte[]传输,所以需要再将赫夫曼码字符串转成byte数组
        byte[] data = ByteUtils.convertBinaryStr2ByteArr(huffmanCode);
        res.setData(data);
        res.setKeyJson(convertKey2JsonString(characterHuffmanCodeMap));
        return res;
    }

    /**
     * 将key也就是赫夫曼编码映射关系转成json串
     * 这里有坑,Map里的Byte转换后会变成Integer类型, 使用Json工具建议全转成String处理,防止被工具坑
     *
     * @param characterHuffmanCodeMap
     * @return
     */
    private static String convertKey2JsonString(Map<Byte, String> characterHuffmanCodeMap) {
        Map<String, String> res = Maps.newHashMap();
        for (Map.Entry<Byte, String> entry : characterHuffmanCodeMap.entrySet()) {
            res.put(String.valueOf(entry.getKey()), entry.getValue());
        }
        return JSON.toJSONString(res);
    }

    /**
     * 获取字符串的字符->权重 映射关系
     *
     * @param content
     * @return
     */
    private static Map<Byte, Integer> getCharacterWeightMap(byte[] content) {
        Map<Byte, Integer> res = Maps.newHashMap();
        for (int i = 0; i < content.length; i++) {
            byte b = content[i];
            res.put(b, res.get(b) == null ? 1 : res.get(b) + 1);
        }
        return res;
    }

    /**
     * 创建赫夫曼树
     *
     * @param characterWeightMap
     * @return
     */
    private static Node createHuffmanTree(Map<Byte, Integer> characterWeightMap) {
        // 1. 构建一个节点集合
        List<Node> nodeList = Lists.newArrayList();
        for (Map.Entry<Byte, Integer> entry : characterWeightMap.entrySet()) {
            nodeList.add(new Node(entry.getKey(), entry.getValue()));
        }
        // 2. 创建赫夫曼树
        while (nodeList.size() > 1) {
            // 排序
            nodeList.sort((o1, o2) -> o1.weight - o2.weight);
            // 取出根节点权值最小的两颗二叉树组成一颗新的二叉树,该新的二叉树的根节点的权值是两颗小二叉树节点权值之和,并将两颗小二叉树从集合中移除。
            Node n1 = nodeList.get(0);
            Node n2 = nodeList.get(1);
            Node parent = new Node(n1.weight + n2.weight, n1, n2);
            nodeList.add(parent);
            nodeList.remove(n1);
            nodeList.remove(n2);
        }
        return nodeList.get(0);
    }

    /**
     * 根据赫夫曼树获取字符到赫夫曼编码的映射关系
     *
     * @param node
     * @return
     */
    private static Map<Byte, String> getCharacterHuffmanCodeMap(Node node) {
        Map<Byte, String> characterHuffmanCodeMap = Maps.newHashMap();
        StringBuilder sb = new StringBuilder();
        getCharacterHuffmanCodeMap(node, characterHuffmanCodeMap, sb);
        return characterHuffmanCodeMap;
    }

    /**
     * 根据赫夫曼树获取字符到赫夫曼编码的映射关系(递归处理)
     *
     * @param node
     * @param sb
     * @return
     */
    private static void getCharacterHuffmanCodeMap(Node node, Map<Byte, String> characterHuffmanCodeMap, StringBuilder sb) {
        // 叶子节点 则处理映射关系
        if (node.left == null && node.right == null) {
            characterHuffmanCodeMap.put(node.data, sb.toString());
            return;
        }
        // 非叶子节点,继续递归处理编码
        // 处理左节点,边的code是0
        if (node.left != null) {
            StringBuilder curSB = new StringBuilder();
            curSB.append(sb).append("0");
            getCharacterHuffmanCodeMap(node.left, characterHuffmanCodeMap, curSB);
        }
        // 处理右节点,边的code是1
        if (node.right != null) {
            StringBuilder curSB = new StringBuilder();
            curSB.append(sb).append("1");
            getCharacterHuffmanCodeMap(node.right, characterHuffmanCodeMap, curSB);
        }

    }

    /**
     * 根据字符赫夫曼码映射得到原始字符串内容的赫夫曼码
     *
     * @param content
     * @param characterHuffmanCodeMap
     * @return
     */
    private static String getHuffmanCode(byte[] content, Map<Byte, String> characterHuffmanCodeMap) {
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < content.length; i++) {
            byte b = content[i];
            sb.append(characterHuffmanCodeMap.get(b));
        }
        return sb.toString();
    }

    public static void main(String[] args) {
        String s = "i like like like java do you like a java";
        HuffmanEncodeResult res = encode(s.getBytes());
        byte[] bytes = res.getData();
        for (byte b : bytes) {
            System.out.print(b + " ");
        }
        System.out.println();
        System.out.println(res.getKeyJson());
    }
}



package com.eh.ftd.dsa.ds.utils;

/**
 * todo
 *
 * @author David Li
 * @create 2020/06/28 19:57
 */
public class ByteUtils {
    /**
     * 将二进制字符串转换成byte数组
     *
     * @param str
     * @return
     */
    public static byte[] convertBinaryStr2ByteArr(String str) {
        // 1. 确定数组长度
        int length = (str.length() + 7) / 8;
        // 2. 定义数组
        byte[] res = new byte[length];
        int index = 0; // byte数组下标
        for (int i = 0; i < str.length(); i += 8) {
            String strByte = i + 8 >= str.length() ? str.substring(i) : str.substring(i, i + 8);
            res[index++] = (byte) Integer.parseInt(strByte, 2);
        }
        return res;
    }

    public static String convertByteArr2BinaryStr(byte[] arr) {
        StringBuilder sb = new StringBuilder();
        // 将byte转int,使用
        for (int i = 0; i < arr.length; i++) {
            int data = arr[i];
            if (i != arr.length - 1) {
                data |= 256; // 当i是正数需要补高位,如果是最后一位则不需要,比如28的二进制码是11100
            }

            String byteStr = Integer.toBinaryString(data);
            // byteStr此时有32位, 只需要截取后8位
            if (i != arr.length - 1) {
                sb.append(byteStr.substring(byteStr.length() - 8));
            } else {
                // 如果是最后一位 没有8位 不能用截取 比如28的二进制码是11100
                sb.append(byteStr);
            }
        }
        return sb.toString();
    }

//    public static void main(String[] args) {
//        // to byte[]
//        byte[] arr = convertBinaryStr2ByteArr("1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100");
//        for (byte b : arr) {
//            System.out.println(b + " ");
//        }
//        // to binary string
//        String str = convertByteArr2BinaryStr(arr);
//        System.out.println("1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100");
//        System.out.println(str);
//    }

    public static void main(String[] args) {
        byte[] arr = convertBinaryStr2ByteArr("1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100");
        for (byte b : arr) {
            String s = Integer.toBinaryString(b);
            System.out.println(b + "\t" + s);
        }

    }

}


运行结果 https://gitee.com/lienhui68/picStore/raw/master/null/20200628202846.png 通过赫夫曼编码使得原字符串压缩到了17个字节。

解压数据

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
package com.eh.ftd.dsa.ds;

import com.alibaba.fastjson.JSON;
import com.eh.ftd.dsa.ds.utils.ByteUtils;
import com.google.common.collect.Lists;
import com.google.common.collect.Maps;

import java.util.List;
import java.util.Map;

/**
 * todo
 *
 * @author David Li
 * @create 2020/06/28 21:23
 */
public class HuffmanDecode {
    /**
     * 解压数据
     *
     * @param data 压缩后的数据
     * @param key  赫夫曼码映射 字符->赫夫曼码
     * @return
     */
    public static byte[] decode(byte[] data, String key) {
        // 1. 将赫夫曼映射转成赫夫曼码->字符的映射
        Map<String, Byte> key1 = convertHuffmanCodeMap(JSON.parseObject(key, Map.class));
        // 2. 将字节数组转成赫夫曼码
        String huffmanCode = ByteUtils.convertByteArr2BinaryStr(data);
        // 3. 把赫夫曼码转成原始数据
        byte[] res = convert2OriginalData(huffmanCode, key1);
        return res;
    }

    private static Map<String, Byte> convertHuffmanCodeMap(Map<String, String> key) {
        Map<String, Byte> key1 = Maps.newHashMap();
        for (Map.Entry<String, String> entry : key.entrySet()) {
            key1.put(entry.getValue(), Byte.parseByte(entry.getKey()));
        }
        return key1;
    }

    private static byte[] convert2OriginalData(String huffmanCode, Map<String, Byte> key) {
        List<Byte> byteList = Lists.newArrayList();
        int preIndex = 0; // 前一个huffman码的下一个数组下标
        for (int i = 1; i < huffmanCode.length(); i++) {
            String code;
            if (i == huffmanCode.length() - 1) {
                code = huffmanCode.substring(preIndex);
            } else {
                code = huffmanCode.substring(preIndex, i);
            }
            if (key.get(code) != null) {
                // 说明匹配上了huffman码
                byteList.add(key.get(code));
                preIndex = i;
            }

        }
        byte[] res = new byte[byteList.size()];
        for (int i = 0; i < res.length; i++) {
            res[i] = byteList.get(i);
        }
        return res;
    }

    public static void main(String[] args) {
        String content = "i like like like java do you like a java";
        HuffmanEncode.HuffmanEncodeResult rs = HuffmanEncode.encode(content.getBytes());
        byte[] bytes = rs.getData();
        for (byte b : bytes) {
            System.out.print(b + " ");
        }
        System.out.println();
        byte[] decodeRS = decode(bytes, rs.getKeyJson());
        for (byte b : decodeRS) {
            System.out.print((char) b);
        }
    }

}


https://gitee.com/lienhui68/picStore/raw/master/null/20200628215926.png