JVM从入门到放弃(1)

最近在看JVM相关的书籍和网上相关的文章,抽空写了些文章,整理并加入自己的理解。

1.1 JVM是什么

JVM是Java Virtual Machine的缩写。它是一种基于计算设备的规范,是一台虚拟机,即虚构的计算机。通俗点讲,JVM是用于运行JAVA字节码的虚拟机。

JVM运行在操作系统之上,不与计算机直接交互,屏蔽了具体操作系统平台的信息。当然,JVM执行字节码时实际上还是要解释成具体操作平台的机器指令的。

通过JVM,Java实现了平台无关性,Java语言在不同平台运行时不需要重新编译,只需要在该平台上部署JVM就可以了。因而能实现一次编译多处运行。

java程序的具体运算过程是:

  • (1):将java源码(.java文件)通过编译器编译成.class文件(字节码文件)
  • (2):JVM将字节码文件编译成相应操作系统的机器码
  • (3):机器码调用相应操作系统的本地方法库执行相应的方法

1.2 JVM的主要组成部分

  1. 类加载器(ClassLoader)
  2. 执行引擎(Execution Engine)
  3. 本地库接口(Native Interface)
  4. 运行时数据区(Runtime Data Area)

接下来我们来看以上4个主要组成部分的用途。

类加载器:用于子系统将编译好的.class文件加载到JVM中

执行引擎:包括即时编译器垃圾回收器,即时编译器将Java字节码编译成具体的机器码,垃圾回收器用于回收在运行过程中不再使用的对象。

本地库接口:用于调用操作系统的本地方法库,完成具体的指令操作

运行时数据区:用于储存在JVM运行过程中产生的数据,其中包括

程序计数器(Program Counter Register):内存私有,无内存泄漏的问题

程序计数器是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器。在虚拟机的概念模型里,字节码解析器的工作是通过改变这个计数器的值来选取下一条需要执行的字节码指令,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。

由于jvm的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,也就是任何时刻,一个处理器(或者说一个内核)都只会执行一条线程中的指令。因此为了线程切换后能恢复到正确的执行位置,每个线程都有独立的程序计数器

如果线程正在执行Java中的方法,程序计数器记录的就是正在执行虚拟机字节码指令的地址,如果是Native方法,这个计数器就为空(undefined),因此该内存区域是唯一一个在Java虚拟机规范中没有规定OutOfMemoryError的区域。

方法区(Methed Area):方法区不等于永生代,内存共享,线程共享

方法区用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据。

很多人原因把方法区称作“永久代”(Permanent Generation),本质上两者并不等价,只是HotSpot虚拟机垃圾回收器团队把GC分代收集扩展到了方法区,或者说是用来永久代来实现方法区而已,这样能省去专门为方法区编写内存管理的代码,但是在Jdk8也移除了“永久代”,使用Native Memory来实现方法区。

运行时常量池是方法区的一部分,Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Constant Pool Table)用于存放编译期生成的各种字面量和符号引用,这部分在类加载后进入方法区的运行是常量池中,如String类的intern()方法。

本地方法栈/区(Native Method Stack):线程私有

本地方法栈与虚拟机栈的作用是一样的,只不过虚拟机栈是服务Java方法的,而本地方法栈是为虚拟机调用Native方法服务的。

在Java虚拟机规范中对于本地方法栈没有特殊的要求,虚拟机可以自由的实现它,因此在Sun HotSpot虚拟机直接把本地方法栈和虚拟机栈合二为一了。

虚拟机栈(JVM Stacks):内存私有,它的生命周期和线程相同

虚拟机栈(JVM Stacks)描述的是Java方法执行的内存模型,每个方法在执行的同时都会创建一个线帧(Stack Frame)用于存储局部变量表、操作数栈、动态链接、方法出口等信息,每个方法从调用直至执行完成的过程,都对应着一个线帧在虚拟机栈中入栈到出栈的过程。

虚拟机堆(JVM Heap):内存共享

虚拟机堆是Java虚拟机中内存最大的一块,是被所有线程共享的,在虚拟机启动时候创建,Java堆唯一的目的就是存放对象实例,几乎所有的对象实例都在这里分配内存,随着JIT编译器的发展和逃逸分析技术的逐渐成熟,栈上分配、标量替换优化的技术将会导致一些微妙的变化,所有的对象都分配在堆上渐渐变得不那么“绝对”了。

Java虚拟机规范规定,Java堆可以处在物理上不连续的内存空间中,只要逻辑上连续即可,就像我们的磁盘空间一样。在实现上也可以是固定大小的,也可以是可扩展的,不过当前主流的虚拟机都是可扩展的,通过-Xmx和-Xms控制。

1.3 JVM的内存区域

将上面的知识点总结一下,JVM的内存区域分为3大类:

  1. 线程私有区域(包括 程序计数器, 虚拟机栈, 本地方法栈),跟随线程的启动而创建,随线程的结束而销毁

  2. 线程共享区域(包括 方法区 和 堆 ),跟随虚拟机的启动而创建,随虚拟机的关闭而销毁

  3. 直接内存(也叫做 堆外内存),它并不是JVM的一部分但这部分内存也会被频繁的使用,而且可能导致OutOfMemoryError。在JDK 1.4中新加入了NIO类,引入了一种基于Channel与缓冲区Buffer的IO方式,它通过一个存储在Java堆中的DirectByteBuffer对象作为这块内存的引用操作,它因此更高效,它避免了Java堆和Native堆来回交换数据的时间。

注意 :直接内存分配不会受到Java堆大小的限制,但是受到本机总内存大小限制,在设置虚拟机参数的时候,不能忽略直接内存,把实际内存设置为-Xmx,使得内存区域的总和大于物理内存的限制,从而导致动态扩展时出现OutOfMemoryError异常。

1.4 多线程

JVM允许一个程序使用多个并发线程,Hotspot JVM中Java的线程与原生操作系统的线程是直接映射关系。即当线程本地存储、缓冲区分配、同步对象、栈、程序计数器等准备好以后,就会创建一个操作系统原生线程。Java 线程结束,原生线程随之被回收。操作系统负责调度所有线程,并把它们分配到任何可用的 CPU 上。当原生线程初始化完毕,就会调用 Java 线程的 run() 方法。run() 返回时,被处理未捕获异常,原生线程将确认由于它的结束是否要终止 JVM 进程(比如这个线程是最后一个非守护线程)。当线程结束时,会释放原生线程和 Java 线程的所有资源。

在JVM后台运行的线程主要有以下几个。

  1. 虚拟机线程(JVM Thread):虚拟机线程在JVM到达安全点(SafePoint)时出现。
  2. 周期性任务线程:通过定时器调度线程来实现周期性操作的执行。
  3. GC线程: GC线程支持JVM中不同的垃圾回收活动。
  4. 编译器线程:编译器线程在运行时将字节码动态编译成本地平台机器码,是JVM跨平台的具体实现。
  5. 信号分发线程:接收发送到JVM的信号并调用JVM方法。

(本段摘录《JAVA面试核心知识点精讲 原理篇》,网上查了好多资料都没有这部分)

1.5 Java垃圾回收

将内存中不再被使用的对象进行回收,GC中用于回收的方法称为收集器,由于GC需要消耗一些资源和时间,Java在对对象的生命周期特征进行分析后,按照新生代、旧生代的方式来对对象进行收集,以尽可能的缩短GC对应用造成的暂停。

不同的对象引用类型, GC会采用不同的方法进行回收,JVM对象的引用分为了四种类型:

强引用:默认情况下,对象采用的均为强引用(这个对象的实例没有其他对象引用,GC时才会被回收)。
软引用:软引用是Java中提供的一种比较适合于缓存场景的应用(只有在内存不够用的情况下才会被GC)。
弱引用:在GC时一定会被GC回收。
虚引用:由于虚引用只是用来得知对象是否被GC。

参考:
《JAVA面试核心知识点精讲 原理篇》
《深入理解Java虚拟机:JVM高级特性与最佳实践》