Linux内存简介
由于BIOS和Kernel启动过程消耗了部分内存,因此MemTotal值(free命令获取)小于RAM容量。 dmesg | grep Memory
Memory: 131604168K/134217136K available (14346K kernel code, 9546K rwdata, 9084K rodata, 2660K init, 7556K bss, 2612708K reserved, 0K cma-reserved)
Linux内存查询命令:
free命令
/proc/meminfo命令
通过查询到的内存数据可以得到Linux内存计算公式如下: 由于BIOS
和Kernel
启动过程消耗了部分物理内存,因此MemTotal
值( free
命令获取)小于RAM
容量。 Linux
内存查询方式:
通过查询到的内存数据可以得到Linux
内存计算公式如下:
Code Block |
---|
|
# 总内存 = 已使用内存 + 空闲内存 + 缓存
total = used + free + buff/cache |
其中,已使用内存数据包括Kernel
消耗的内存和所有进程消耗的内存。
其中,已使用内存数据包括Kernel消耗的内存和所有进程消耗的内存。
说明
kernel used=Slab + VmallocUsed + PageTables + KernelStack + HardwareCorrupted + Bounce + X
进程内存
进程消耗的内存包括:
- 虚拟地址空间映射的物理内存。读写磁盘生成PageCache消耗的内存。
- 读写磁盘生成
PageCache
消耗的内存。
虚拟地址映射的物理内存
Image Added
- 物理内存:硬件安装的内存(内存条)。
- 虚拟内存:操作系统为程序运行提供的内存。程序运行空间包括用户空间(用户态)和内核空间(内核态)。
- 物理内存:硬件安装的内存(内存条)。
- 虚拟内存:操作系统为程序运行提供的内存。程序运行空间包括用户空间(用户态)和内核空间(内核态)。Image Removed
虚拟地址映射的物理内存可以区分为共享物理内存和独占物理内存。如下图所示,物理内存1和3由进程A独占,物理内存2由进程B独占,物理内存4由进程A和进程B共享。
Image Added虚拟地址映射的物理内存可以区分为共享物理内存和独占物理内存。如下图所示,物理内存1和3由进程A独占,物理内存2由进程B独占,物理内存4由进程A和进程B共享。Image Removed
PageCache
除了通过MMap文件直接映射外,进程文件还可以通过系统调用Buffered I/O相关的Syscall将数据写入到PageCache,因此,PageCache也会占用一部分内存。Image Removed除了通过MMap
文件直接映射外,进程文件还可以通过系统调用Buffered I/O
相关的Syscall
将数据写入到PageCache
,因此,PageCache
也会占用一部分内存。
Image Added
进程内存统计指标
单进程内存统计指标
进程资源存储类型如下:
- Anonymous(匿名页):程序自行使用的堆栈空间,在磁盘上没有对应文件。
- File-backed(文件页):资源存放在磁盘文件中,文件内包含代码段、字体信息等内容。
说明
相关指标:进程资源有如下类型:
rss(RSan):所有类型资源的独占内存。rss
:表示没有映射到文件的内存量,即匿名内存。匿名内存通常是进程通过malloc
或类似的方法动态分配的内存。file_
rss(RSfd):File-backed资源占用的所有内存。shmem_rss(RSsh):Anonymous资源的共享内存。rss
:表示映射到文件的内存量。如果一个进程打开了一个文件并将其映射到内存,那么这部分内存就会被计入file_rss
。shmem_rss
:表示共享内存量。如果多个进程共享一部分内存,那么这部分内存就会被计入shmem_rss
。
Tip |
---|
RSS( resident set size) :驻留集大小。表示进程已装入内存的页面的集合。
|
常用内存查询命令
top
Image Added
指标查询命令如下:
命令 | 查询指标 | 说明 | 计算公式 |
---|
top
| VIRT(Virtual Set Size) | 虚拟地址空间。 | 无 |
RES |
RSS映射的物理内存。(Resident Set Size) | RSS 映射的物理内存。 | anno_rss + file_rss + shmem_rss |
SHR(Shared Memory) | 共享内存。 | file_rss + shmem_rss |
MEM%ps
Image Added
命令 | 内存 | 说明 | 计算公式 |
---|
ps
| VSZ(Virtual Set Size) | 虚拟地址空间。 | 无 |
RSS |
RSS映射的物理内存。(Resident Set Size) | RSS 映射的物理内存。 | anno_rss + file_rss + shmem_rss |
MEM%smem
Image Added
命令 | 内存 | 说明 | 计算公式 |
---|
smem
| USS(Unique Set Size) | 独占内存。 | anno_rss |
PSS(Proportional Set Size) | 按比例分配内存。 | anno_rss + file_rss/m + shmem_rss/n |
RSS |
RSS映射的物理内存。(Resident Set Size) | RSS 映射的物理内存。 | anno_rss + file_rss + shmem_rss |
内存指标关系
Image RemovedImage Added说明
WSS(Memoy Size)指标:一种更为合理评估进程内存真实使用内存的计算方式。但是受限于Linux Page Reclaim机制,这个概念目前还只是概念,并没有哪一个工具可以正确统计出WSS,只能是趋近。Size) 指标:一种更为合理评估进程内存真实使用内存的计算方式。但是受限于Linux Page Reclaim 机制,这个概念目前还只是概念,并没有哪一个工具可以正确统计出WSS ,只能是趋近。
|
cgroup
内存统计指标
cgroup
用于对Linux
的一组进程资源进行限制、管理和隔离。更多信息,请参见
进程控制组内存统计指标
控制组(Cgroup)用于对Linux的一组进程资源进行限制、管理和隔离。更多信息,请参见官方文档。
Cgroup按层级管理,每个节点都包含一组文件,用于统计由这个节点包含的控制组的某些方面的指标。例如,Memory Control Group(memcg)统计内存相关指标。Image Removed
Memory Cgroup文件包含以下指标:cgroup
按层级管理,每个节点都包含一组文件,用于统计由这个节点包含的cgroup
的某些方面的指标。例如,Memory Control Group(memcg)
统计内存相关指标。
Image Added
memory cgroup
文件包含以下指标:
Code Block |
---|
|
cgroup.event_control # |
用于eventfd的接口
memory.usage_in_bytes |
# 显示当前已用的内存
memory.limit_in_bytes # |
#设置设置/显示当前限制的内存额度
memory.failcnt # |
显示内存使用量达到限制值的次数
memory.max_usage_in_bytes # |
历史内存最大使用量
memory.soft_limit_in_bytes # |
#设置设置/显示当前限制的内存软额度
memory.stat # |
显示当前cgroup的内存使用情况
memory.use_hierarchy |
#设置# 设置/显示是否将子cgroup的内存使用情况统计到当前cgroup里面
memory.force_empty # |
触发系统立即尽可能的回收当前cgroup中可以回收的内存
memory.pressure_level |
#设置内存压力的通知事件,配合cgroup# 设置内存压力的通知事件,配合cgroup.event_control一起使用
memory.swappiness # |
设置和显示当前的swappiness
memory.move_charge_at_immigrate # |
设置当进程移动到其他cgroup中时,它所占用的内存是否也随着移动过去
memory.oom_control # |
#设置设置/显示oom controls相关的配置
memory.numa_stat |
其中需要关注以下3
个指标:
其中需要关注以下3个指标:
总结
单进程和进程控制组指标区别:单进程和进程cgroup
指标区别:
cgroup
的RSS
指标只包含anno_rss
,对应单进程下的USS
指标,因此cgroup
的mapped_file+RSS
则对应单进程下的RSS
指标。- 单进程中
PageCache
需单独统计,cgroup
中 memcg
文件统计的内存已包含PageCache
。
指标 | 单进程 | 进程控制组(memcg) |
---|
RSS | anon_rss + file_rss + shmem_rss | anon_rss |
mapped_file | 无 | file_rss + shmem_rss |
cache | 无 | PageCache |
控制组的RSS指标只包含anno_rss,对应单进程下的USS指标,因此控制组的mapped_file+RSS则对应单进程下的RSS指标。Docker和K8s中的内存统计
Docker
和K8S
中的内存统计即Linux memcg
进程统计,但两者内存使用率的定义不同。
docker stat命令
返回示例如下:
Image Added
LIMIT
对应控制组的memory.limit_in_bytes
MEM USAGE
对应控制组的memory.usage_in_bytes - memory.stat[total_cache]
Tip |
---|
docker stat 命令查询原理,请参见官方文档。
|
kubectl top pod命令
kubectl top
命令通过Metric-server
和Heapster
获取Cadvisor
中working_set
的值,表示Pod
实例使用的内存大小(不包括Pause
容器)。Metrics-server
中Pod
内存获取原理如下,更多信息,请参见官方文档。
Code Block |
---|
|
func decodeMemory(target *resource.Quantity, memStats *stats.MemoryStats) error {
if memStats == nil || memStats.WorkingSetBytes == nil {
return fmt.Errorf("missing memory usage metric")
}
*target = *uint64Quantity(*memStats.WorkingSetBytes, 0)
target.Format = resource.BinarySI
return nil
} |
Cadvisor
内存workingset
算法如下,更多信息,请参见官方文档。
Code Block |
---|
|
func setMemoryStats(s *cgroups.Stats, ret *info.ContainerStats) {
ret.Memory.Usage = s.MemoryStats.Usage.Usage
ret.Memory.MaxUsage = s.MemoryStats.Usage.MaxUsage
ret.Memory.Failcnt = s.MemoryStats.Usage.Failcnt
if s.MemoryStats.UseHierarchy {
ret.Memory.Cache = s.MemoryStats.Stats["total_cache"]
ret.Memory.RSS = s.MemoryStats.Stats["total_rss"]
ret.Memory.Swap = s.MemoryStats.Stats["total_swap"]
ret.Memory.MappedFile = s.MemoryStats.Stats["total_mapped_file"]
} else {
ret.Memory.Cache = s.MemoryStats.Stats["cache"]
ret.Memory.RSS = s.MemoryStats.Stats["rss"]
ret.Memory.Swap = s.MemoryStats.Stats["swap"]
ret.Memory.MappedFile = s.MemoryStats.Stats["mapped_file"]
}
if v, ok := s.MemoryStats.Stats["pgfault"]; ok {
ret.Memory.ContainerData.Pgfault = v
ret.Memory.HierarchicalData.Pgfault = v
}
if v, ok := s.MemoryStats.Stats["pgmajfault"]; ok {
ret.Memory.ContainerData.Pgmajfault = v
ret.Memory.HierarchicalData.Pgmajfault = v
}
workingSet := ret.Memory.Usage
if v, ok := s.MemoryStats.Stats["total_inactive_file"]; ok {
if workingSet < v {
workingSet = 0
} else {
workingSet -= v
}
}
ret.Memory.WorkingSet = workingSet
} |
通过以上命令算法可以得出,kubectl top pod
命令查询到的Memory Usage = Memory WorkingSet = memory.usage_in_bytes - memory.stat[total_inactive_file]
。
总结
命令 | 生态 | Memory Usage计算方式 |
---|
docker stat | docker | memory.usage_in_bytes - memory.stat[total_cache] |
kubectl top pod | k8s | memory.usage_in_bytes - memory.stat[total_inactive_file] |
如果使用top/ps
命令查询内存,则cgroup
下的Memory Usage
指标需对top/ps
命令查询到的指标进行以下计算:
进程组生态 | 计算公式 |
---|
cgroup | rss + cache(active cache + inactive cache) |
docker | rss |
k8s | rss + active cache |
参考资料
单进程中PageCache需单独统计,控制组中memcg文件统计的内存已包含PageCache。