HashMap

HashMap 是 Java Collection Framework 的重要成员，也是 Map 族(如下图所示)中我们最为常用的一种。简单地说，HashMap 是基于哈希表的 Map 接口的实现，以 Key-Value 的形式存在，即存储的对象是 Entry (同时包含了 Key 和 Value) 。在 HashMap 中，其会根据 hash 算法来计算 key-value 的存储位置并进行快速存取。特别地，HashMap 最多只允许一条 Entry 的键为 Null(多条会覆盖)，但允许多条 Entry 的值为 Null。此外，HashMap 是 Map 的一个非同步的实现。

Map 类型

HashMap 实现了 Map 接口，并继承 AbstractMap 抽象类，其中 Map 接口定义了键值映射规则。和 AbstractCollection 抽象类在 Collection 族的作用类似， AbstractMap 抽象类提供了 Map 接口的骨干实现，以最大限度地减少实现 Map 接口所需的工作。HashMap 在 JDK 中的定义为：

public class HashMap<K,V>
    extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable{
...
}

HashMap 源码分析

HashMap 由数组和链表组成的，数组是 HashMap 的主体，链表则是主要为了解决哈希冲突而存在的。Java 8 开始 HashMap 的实现是综合利用了数组、链表与红黑树。

HashMap Table 与链表

Java 8 红黑树 HashMap 示意图

如果定位到的数组位置不含链表，那么查找、添加等操作很快，仅需一次寻址即可，其时间复杂度为 O(1)；如果定位到的数组包含链表，对于添加操作，其时间复杂度为 O(n)——首先遍历链表，存在即覆盖，不存在则新增；对于查找操作来讲，仍需要遍历链表，然后通过 key 对象的 equals 方法逐一对比查找。从性能上考虑，HashMap 中的链表出现越少，即哈希冲突越少，性能也就越好。所以，在日常编码中，可以使用 HashMap 存取键值映射关系。

值存取

在 HashMap 中，我们最常用的两个操作就是：put(Key,Value) 和 get(Key)。HashMap 中的 Key 是唯一的，那它是如何保证唯一性的呢？最简单的就是用 equals 比较，但随着元素的增多，put 和 get 的效率将越来越低，这里的时间复杂度是 O(n)。实际上，HashMap 很少会用到 equals 方法，因为其内通过一个哈希表管理所有元素，利用哈希算法可以快速的存取元素。当我们调用 put 方法存值时，HashMap 首先会调用 Key 的 hashCode 方法，然后基于此获取 Key 哈希码，通过哈希码快速找到某个桶，这个位置可以被称之为 bucketIndex。

理论上，hashCode 可能存在碰撞的情况，当碰撞发生时，这时会取出 bucketIndex 桶内已存储的元素，并通过 hashCode() 和 equals() 来逐个比较以判断 Key 是否已存在。如果已存在，则使用新 Value 值替换旧 Value 值，并返回旧 Value 值；如果不存在，则存放新的键值对 `` 到桶中。因此，在 HashMap 中，equals() 方法只有在哈希码碰撞时才会被用到。

put

下面这段代码是 java.util.HashMap 的中 put 方法的具体实现：

/**
    * Associates the specified value with the specified key in this map.
    * If the map previously contained a mapping for the key, the old
    * value is replaced.
    *
    * @param key key with which the specified value is to be associated
    * @param value value to be associated with the specified key
    * @return the previous value associated with key, or null if there was no mapping for key.
    *  Note that a null return can also indicate that the map previously associated null with key.
    */
public V put(K key, V value) {
    //当key为null时，调用putForNullKey方法，并将该键值对保存到table的第一个位置
    if (key == null)
        return putForNullKey(value);
    //根据key的hashCode计算hash值
    int hash = hash(key.hashCode());             //  ------- (1)
    //计算该键值对在数组中的存储位置（哪个桶）
    int i = indexFor(hash, table.length);              // ------- (2)
    //在table的第i个桶上进行迭代，寻找 key 保存的位置
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {      // ------- (3)
        Object k;
        //判断该条链上是否存在hash值相同且key值相等的映射，若存在，则直接覆盖 value，并返回旧value
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;    // 返回旧值
        }
    }
    modCount++; //修改次数增加1，快速失败机制
    //原HashMap中无该映射，将该添加至该链的链头
    addEntry(hash, key, value, i);
    return null;
}Copy to clipboardErrorCopied

通过上述源码我们可以清楚了解到 HashMap 保存数据的过程。首先，判断 key 是否为 null，若为 null，则直接调用 putForNullKey 方法；若不为空，则先计算 key 的 hash 值，然后根据 hash 值搜索在 table 数组中的索引位置，如果 table 数组在该位置处有元素，则查找是否存在相同的 key，若存在则覆盖原来 key 的 value，否则将该元素保存在链头（最先保存的元素放在链尾）。此外，若 table 在该处没有元素，则直接保存。

源码中的 (3) 处，此处迭代原因就是为了防止存在相同的 key 值。如果发现两个 hash 值（key）相同时，HashMap 的处理方式是用新 value 替换旧 value，这里并没有处理 key，这正好解释了 HashMap 中没有两个相同的 key。

对 NULL 键的特别处理：putForNullKey()

    /**
     * Offloaded version of put for null keys
     */
    private V putForNullKey(V value) {
        // 若key==null，则将其放入table的第一个桶，即 table[0]
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null) {   // 若已经存在key为null的键，则替换其值，并返回旧值
                V oldValue = e.value;
                e.value = value;
                e.recordAccess(this);
                return oldValue;
            }
        }
        modCount++;        // 快速失败
        addEntry(0, null, value, 0);       // 否则，将其添加到 table[0] 的桶中
        return null;
    }Copy to clipboardErrorCopied

通过上述源码我们可以清楚知到，HashMap 中可以保存键为 NULL 的键值对，且该键值对是唯一的。若再次向其中添加键为 NULL 的键值对，将覆盖其原值。此外，如果 HashMap 中存在键为 NULL 的键值对，那么一定在第一个桶中。

HashMap 中的哈希策略（算法）

在上述的 put(key,vlaue) 方法的源码中，我们标出了 HashMap 中的哈希策略（即(1)、(2)两处），hash() 方法用于对 Key 的 hashCode 进行重新计算，而 indexFor() 方法用于生成这个 Entry 对象的插入位置。当计算出来的 hash 值与 hashMap 的(length-1)做了&运算后，会得到位于区间[0，length-1]的一个值。特别地，这个值分布的越均匀， HashMap 的空间利用率也就越高，存取效率也就越好。

我们首先看(1)处的 hash() 方法，该方法为一个纯粹的数学计算，用于进一步计算 key 的 hash 值，源码如下：

    /**
     * Applies a supplemental hash function to a given hashCode, which
     * defends against poor quality hash functions.  This is critical
     * because HashMap uses power-of-two length hash tables, that
     * otherwise encounter collisions for hashCodes that do not differ
     * in lower bits.
     *
     * Note: Null keys always map to hash 0, thus index 0.
     */
    static int hash(int h) {
        // This function ensures that hashCodes that differ only by
        // constant multiples at each bit position have a bounded
        // number of collisions (approximately 8 at default load factor).
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }Copy to clipboardErrorCopied

正如 JDK 官方对该方法的描述那样，使用 hash()方法对一个对象的 hashCode 进行重新计算是为了防止质量低下的 hashCode()函数实现。由于 hashMap 的支撑数组长度总是 2 的幂次，通过右移可以使低位的数据尽量的不同，从而使 hash 值的分布尽量均匀。

通过上述 hash()方法计算得到 Key 的 hash 值后，怎么才能保证元素均匀分布到 table 的每个桶中呢？我们会想到取模，但是由于取模的效率较低，HashMap 是通过调用(2)处的 indexFor()方法处理的，其不但简单而且效率很高，对应源码如下所示：

/**
* Returns index for hash code h.
*/
static int indexFor(int h, int length) {
    return h & (length-1);  // 作用等价于取模运算，但这种方式效率更高
}Copy to clipboardErrorCopied

我们知道，HashMap 的底层数组长度总是 2 的 n 次方。当 length 为 2 的 n 次方时，h&(length - 1)就相当于对 length 取模，而且速度比直接取模要快得多，这是 HashMap 在速度上的一个优化。

总而言之，上述的 hash()方法和 indexFor()方法的作用只有一个：保证元素均匀分布到 table 的每个桶中以便充分利用空间。

HashMap 中键值对的添加：addEntry()

/**
* Adds a new entry with the specified key, value and hash code to
* the specified bucket.  It is the responsibility of this
* method to resize the table if appropriate.
*
* Subclass overrides this to alter the behavior of put method.
*
* 永远都是在链表的表头添加新元素
*/
void addEntry(int hash, K key, V value, int bucketIndex) {
    //获取bucketIndex处的链表
    Entry<K,V> e = table[bucketIndex];
    //将新创建的 Entry 链入 bucketIndex处的链表的表头
    table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
    //若HashMap中元素的个数超过极限值 threshold，则容量扩大两倍
    if (size++ >= threshold)
        resize(2 * table.length);
}Copy to clipboardErrorCopied

通过上述源码我们可以清楚地了解到链的产生时机。HashMap 总是将新的 Entry 对象添加到 bucketIndex 处，若 bucketIndex 处已经有了 Entry 对象，那么新添加的 Entry 对象将指向原有的 Entry 对象，并形成一条新的以它为链头的 Entry 链；但是，若 bucketIndex 处原先没有 Entry 对象，那么新添加的 Entry 对象将指向 null，也就生成了一条长度为 1 的全新的 Entry 链了。HashMap 永远都是在链表的表头添加新元素。此外，若 HashMap 中元素的个数超过极限值 threshold，其将进行扩容操作，一般情况下，容量将扩大至原来的两倍。

HashMap 的扩容：resize()

随着 HashMap 中元素的数量越来越多，发生碰撞的概率将越来越大，所产生的子链长度就会越来越长，这样势必会影响 HashMap 的存取速度。为了保证 HashMap 的效率，系统必须要在某个临界点进行扩容处理，该临界点就是 HashMap 中元素的数量在数值上等于 threshold（table 数组长度 * 加载因子）。但是，不得不说，扩容是一个非常耗时的过程，因为它需要重新计算这些元素在新 table 数组中的位置并进行复制处理。所以，如果我们能够提前预知 HashMap 中元素的个数，那么在构造 HashMap 时预设元素的个数能够有效的提高 HashMap 的性能。我们直接看其源码：

     /**
     * Rehashes the contents of this map into a new array with a
     * larger capacity.  This method is called automatically when the
     * number of keys in this map reaches its threshold.
     *
     * If current capacity is MAXIMUM_CAPACITY, this method does not
     * resize the map, but sets threshold to Integer.MAX_VALUE.
     * This has the effect of preventing future calls.
     *
     * @param newCapacity the new capacity, MUST be a power of two;
     *        must be greater than current capacity unless current
     *        capacity is MAXIMUM_CAPACITY (in which case value
     *        is irrelevant).
     */
    void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        // 若 oldCapacity 已达到最大值，直接将 threshold 设为 Integer.MAX_VALUE
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;             // 直接返回
        }
        // 否则，创建一个更大的数组
        Entry[] newTable = new Entry[newCapacity];
        //将每条Entry重新哈希到新的数组中
        transfer(newTable);
        table = newTable;
        threshold = (int)(newCapacity * loadFactor);  // 重新设定 threshold
    }Copy to clipboardErrorCopied

HashMap 的重哈希：transfer()

重哈希的主要是一个重新计算原 HashMap 中的元素在新 table 数组中的位置并进行复制处理的过程，我们直接看其源码：

/**
* Transfers all entries from current table to newTable.
*/
void transfer(Entry[] newTable) {
    // 将原数组 table 赋给数组 src
    Entry[] src = table;
    int newCapacity = newTable.length;
    // 将数组 src 中的每条链重新添加到 newTable 中
    for (int j = 0; j < src.length; j++) {
        Entry<K,V> e = src[j];
        if (e != null) {
            src[j] = null;   // src 回收
            // 将每条链的每个元素依次添加到 newTable 中相应的桶中
            do {
                Entry<K,V> next = e.next;
                // e.hash指的是 hash(key.hashCode())的返回值;
                // 计算在newTable中的位置，注意原来在同一条子链上的元素可能被分配到不同的子链
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            } while (e != null);
        }
    }
}Copy to clipboardErrorCopied

特别需要注意的是，在重哈希的过程中，原属于一个桶中的 Entry 对象可能被分到不同的桶，因为 HashMap 的容量发生了变化，那么 h&(length - 1) 的值也会发生相应的变化。极端地说，如果重哈希后，原属于一个桶中的 Entry 对象仍属于同一桶，那么重哈希也就失去了意义。

get

相对于 HashMap 的存储而言，读取就显得比较简单了。因为，HashMap 只需通过 key 的 hash 值定位到 table 数组的某个特定的桶，然后查找并返回该 key 对应的 value 即可，源码如下：

/**
* Returns the value to which the specified key is mapped,
* or {@code null} if this map contains no mapping for the key.
*
* <p>More formally, if this map contains a mapping from a key
* {@code k} to a value {@code v} such that {@code (key==null ? k==null
* key.equals(k))}, then this method returns {@code v}; otherwise
* it returns {@code null}.  (There can be at most one such mapping.)
*
* <p>A return value of {@code null} does not <i>necessarily</i>
* indicate that the map contains no mapping for the key; it's also
* possible that the map explicitly maps the key to {@code null}.
* The {@link #containsKey containsKey} operation may be used to
* distinguish these two cases.
*
* @see #put(Object, Object)
*/
public V get(Object key) {
    // 若为null，调用getForNullKey方法返回相对应的value
    if (key == null)
        // 从table的第一个桶中寻找 key 为 null 的映射；若不存在，直接返回null
        return getForNullKey();
    // 根据该 key 的 hashCode 值计算它的 hash 码
    int hash = hash(key.hashCode());
    // 找出 table 数组中对应的桶
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
            e != null;
            e = e.next) {
        Object k;
        //若搜索的key与查找的key相同，则返回相对应的value
        if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
            return e.value;
    }
    return null;
}Copy to clipboardErrorCopied

在这里能够根据 key 快速的取到 value，除了和 HashMap 的数据结构密不可分外，还和 Entry 有莫大的关系。在前面就已经提到过，HashMap 在存储过程中并没有将 key，value 分开来存储，而是当做一个整体 key-value 来处理的，这个整体就是 Entry 对象。特别地，在 Entry 对象中，value 的地位要比 key 低一些，相当于是 key 的附属。

其中，针对键为 NULL 的键值对，HashMap 提供了专门的处理：getForNullKey()，其源码如下：

 /**
     * Offloaded version of get() to look up null keys.  Null keys map
     * to index 0.  This null case is split out into separate methods
     * for the sake of performance in the two most commonly used
     * operations (get and put), but incorporated with conditionals in
     * others.
     */
    private V getForNullKey() {
        // 键为NULL的键值对若存在，则必定在第一个桶中
        for (Entry<K,V> e = table[0]; e != null; e = e.next) {
            if (e.key == null)
                return e.value;
        }
        // 键为NULL的键值对若不存在，则直接返回 null
        return null;
    }Copy to clipboardErrorCopied

因此，调用 HashMap 的 get(Object key)方法后，若返回值是 NULL，则存在如下两种可能：

该 key 对应的值就是 null;
HashMap 中不存在该 key。

构造函数

HashMap 一共提供了四个构造函数，其中默认无参的构造函数和参数为 Map 的构造函数为 Java Collection Framework 规范的推荐实现，其余两个构造函数则是 HashMap 专门提供的。

HashMap()

该构造函数意在构造一个具有> 默认初始容量 (16) 和默认负载因子(0.75) 的空 HashMap，是 Java Collection Framework 规范推荐提供的，其源码如下：

/**
* Constructs an empty HashMap with the default initial capacity
* (16) and the default load factor (0.75).
*/
public HashMap() {
    //负载因子:用于衡量的是一个哈希表的空间的使用程度
    this.loadFactor = DEFAULT_LOAD_FACTOR;
    //HashMap进行扩容的阈值，它的值等于 HashMap 的容量乘以负载因子
    threshold = (int)(DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR);
    // HashMap的底层实现仍是数组，只是数组的每一项都是一条链
    table = new Entry[DEFAULT_INITIAL_CAPACITY];
    init();
}Copy to clipboardErrorCopied

在构造函数中都会涉及初始容量和负载因子，这两个参数是影响 HashMap 性能的重要参数。其中，容量表示哈希表中桶的数量 (table 数组的大小)，初始容量是创建哈希表时桶的数量；负载因子是哈希表在其容量自动增加之前可以达到多满的一种尺度，它衡量的是一个哈希表的空间的使用程度，负载因子越大表示哈希表的装填程度越高，反之愈小。对于使用拉链法的哈希表来说，查找一个元素的平均时间是 O(1+a)，a 指的是链的长度，是一个常数。特别地，若负载因子越大，那么对空间的利用更充分，但查找效率的也就越低；若负载因子越小，那么哈希表的数据将越稀疏，对空间造成的浪费也就越严重。系统默认负载因子为 0.75，这是时间和空间成本上一种折衷，一般情况下我们是无需修改的。

此外，每次新建一个 HashMap 时，都会初始化一个 Entry 类型的 table 数组，其中 Entry 类型的定义如下：

static class Entry<K,V> implements Map.Entry<K,V> {
    final K key;     // 键值对的键
    V value;        // 键值对的值
    Entry<K,V> next;    // 下一个节点
    final int hash;     // hash(key.hashCode())方法的返回值
    /**
     * Creates new entry.
     */
    Entry(int h, K k, V v, Entry<K,V> n) {     // Entry 的构造函数
        value = v;
        next = n;
        key = k;
        hash = h;
    }
    ......
}Copy to clipboardErrorCopied

其中，Entry 为 HashMap 的内部类，实现了 Map.Entry 接口，其包含了键 key、值 value、下一个节点 next，以及 hash 值四个属性。事实上，Entry 是构成哈希表的基石，是哈希表所存储的元素的具体形式。

HashMap(int initialCapacity)

该构造函数意在构造一个指定初始容量和默认负载因子 (0.75)的空 HashMap，其源码如下：

// Constructs an empty HashMap with the specified initial capacity and the default load factor (0.75)
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);  // 直接调用上述构造函数
}Copy to clipboardErrorCopied

HashMap(int initialCapacity, float loadFactor)

该构造函数意在构造一个指定初始容量和指定负载因子的空 HashMap，其源码如下：

/**
* Constructs an empty HashMap with the specified initial capacity and load factor.
*/
public HashMap(int initialCapacity, float loadFactor) {
    //初始容量不能小于 0
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
    //初始容量不能超过 2^30
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    //负载因子不能小于 0
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                            loadFactor);
    // HashMap 的容量必须是2的幂次方，超过 initialCapacity 的最小 2^n
    int capacity = 1;
    while (capacity < initialCapacity)
        capacity <<= 1;
    //负载因子
    this.loadFactor = loadFactor;
    //设置HashMap的容量极限，当HashMap的容量达到该极限时就会进行自动扩容操作
    threshold = (int)(capacity * loadFactor);
    // HashMap的底层实现仍是数组，只是数组的每一项都是一条链
    table = new Entry[capacity];
    init();
}Copy to clipboardErrorCopied

HashMap(Map m)

该构造函数意在构造一个与指定 Map 具有相同映射的 HashMap，其初始容量不小于 16 (具体依赖于指定 Map 的大小)，负载因子是 0.75，是 Java Collection Framework 规范推荐提供的，其源码如下：

// Constructs a new HashMap with the same mappings as the specified Map.
// The HashMap is created with default load factor (0.75) and an initial capacity
// sufficient to hold the mappings in the specified Map.
public HashMap(Map<? extends K, ? extends V> m) {
    // 初始容量不小于 16
    this(Math.max((int) (m.size() / DEFAULT_LOAD_FACTOR) + 1,
                    DEFAULT_INITIAL_CAPACITY), DEFAULT_LOAD_FACTOR);
    putAllForCreate(m);
}Copy to clipboardErrorCopied

HashMap 的底层数组长度为何总是 2 的 n 次方？

我们知道，HashMap 的底层数组长度总是 2 的 n 次方，原因是 HashMap 在其构造函数 HashMap(int initialCapacity, float loadFactor) 中作了特别的处理，如下面的代码所示。当底层数组的 length 为 2 的 n 次方时， h&(length - 1) 就相当于对 length 取模，其效率要比直接取模高得多，这是 HashMap 在效率上的一个优化。

// HashMap 的容量必须是2的幂次方，超过 initialCapacity 的最小 2^n
int capacity = 1;
while (capacity < initialCapacity)
    capacity <<= 1;Copy to clipboardErrorCopied

在上文已经提到过，HashMap 中的数据结构是一个数组链表，我们希望的是元素存放的越均匀越好。最理想的效果是，Entry 数组中每个位置都只有一个元素，这样，查询的时候效率最高，不需要遍历单链表，也不需要通过 equals 去比较 Key，而且空间利用率最大。

HashMap 采用了一个分两步走的哈希策略来保证分布的均匀：

使用 hash() 方法用于对 Key 的 hashCode 进行重新计算，以防止质量低下的 hashCode()函数实现。由于 hashMap 的支撑数组长度总是 2 的倍数，通过右移可以使低位的数据尽量的不同，从而使 Key 的 hash 值的分布尽量均匀；
使用 indexFor() 方法进行取余运算，以使 Entry 对象的插入位置尽量分布均匀。

因此，总的来说，HashMap 的底层数组长度总是 2 的 n 次方的原因有两个，即当 length=2^n 时：

不同的 hash 值发生碰撞的概率比较小，这样就会使得数据在 table 数组中分布较均匀，空间利用率较高，查询速度也较快；
h&(length - 1) 就相当于对 length 取模，而且在速度、效率上比直接取模要快得多，即二者是等价不等效的，这是 HashMap 在速度和效率上的一个优化。

下一节：对于包含容器类型的程序设计语言来说，基本上都会涉及到 hashCode。在 Java 中也一样，hashCode 方法的主要作用是为了配合基于哈希的集合一起正常运行，这样的哈希集合包括 HashSet、HashMap 以及 HashTable。

当向集合中插入对象时，如何判别在集合中是否已经存在该对象，也许大多数人都会想到调用 equals 方法来逐个进行比较，这个方法确实可行。但是如果集合中已经存在一万条数据或者更多的数据，如果采用 equals 方法去逐一比较，效率必然是一个问题。此时 hashCode 方法的作用就体现出来了，当集合要添加新的对象时，先调用这个对象的 hashCode 方法，得到对应的 hashcode 值，实际上在 HashMap 的具体实现中会用一个 table 保存已经存进去的对象的 hashcode 值，如果 table 中没有该 hashcode 值，它就可以直接存进去，不用再进行任何比较了；如果存在该 hashcode 值，就调用它的 equals 方法与新元素进行比较，相同的话就不存了，不相同就哈希其它的地址，所以这里存在一个冲突解决的问题，这样一来实际调用 equals 方法的次数就大大降低了

通俗来说，Java 中的 hashCode 方法就是根据一定的规则将与对象相关的信息，比如对象的存储地址，对象的字段等，映射成一个数值，这个数值称作为哈希值。