Linux动态为内核添加新的系统调用

时间：2020-05-15 08:52:41

关键字： Linux 系统调用编程

[导读]本文介绍了动态添加系统调用，即在不重新编译内核的前提下，添加系统调用。

添加新的系统调用 ，这是一个老掉牙的话题。前段时间折腾Rootkit的时候，我有意避开涉及HOOK劫持系统调用的话题，我主要是想来点新鲜的东西，毕竟关于劫持系统调用这种话题，网上的资料可谓汗牛充栋。

本文的主题依然不是劫持系统调用，而是添加系统调用，并且是动态添加系统调用，即在不重新编译内核的前提下添加系统调用，毕竟如果可以重新编译内核的话，那实在是没有意思。

但文中所述动态新增系统调用的方式依然是老掉牙的方式，甚至和2011年的文章有所雷同，但是 这篇文章介绍的方式足够清爽！

我们从一个问题开始。我的问题是：

Linux系统中如何获取以及修改当前进程的名字？？

你去搜一下这个topic，一堆冗余繁杂的方案，大多数都是借助procfs来完成这个需求，但没有直接的让人感到清爽的方法，比如调用一个getname接口即可获取当前进程的名字，调用一个modname接口就能修改自己的名字，没有这样的方法。

所以，干嘛不增加两个系统调用呢：

sys_getname: 获取当前进程名。
sys_setname: 修改当前进程名。

总体上，这是一个 增加两个系统调用的问题。

下面先演示动态增加一个系统调用的原理。还是使用2011年的老例子，这次我简单点，用systemtap脚本来实现。

千万不要质疑systemtap的威力，它的guru模式其实就是一个普通的内核模块，只是让编程变得更简单，所以， 把systemtap当一种方言来看待，而不仅仅作为调试探测工具。 甚至纯guru模式的stap脚本根本没有用到int 3断点，它简直可以用于线上生产环境！

演示增加系统调用的stap脚本如下：



#!/usr/bin/stap -g		
// newsyscall.stap			
%{		
unsigned char *old_tbl;		
// 这里借用本module的地址，分配静态数组new_tbl作为新的系统调用表。		
// 注意：不能调用kmalloc，vmalloc分配，因为在x86_64平台它们的地址无法被内核rel32跳转过来！			
unsigned char new_tbl[8*500] = {0};		
unsigned long call_addr = 0;		
unsigned long nr_addr = 0;		
unsigned int off_old;	
unsigned short nr_old;		
			
// 使用内核现成的poke text接口，而不是自己去修改页表权限。		
// 当然，也可以修改CR0，不过这显然没有直接用text_poke清爽。		
// 这是可行的，不然呢？内核自己的ftrace或者live kpatch怎么办？！		
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);		
%}		
		
%{			
// 2011年文章里的例子，打印一句话而已，我修改了函数名字，称作“皮鞋”		
asmlinkage long sys_skinshoe(int i)		
{		
printk("new call----:%d\n", i);			
return 0;		
}		
%}			

function syscall_table_poke()		
%{		
unsigned short nr_new = 0;		
unsigned int off_new = 0;		
unsigned char *syscall;		
unsigned long new_addr;		
int i;		

new_addr = (unsigned long)sys_skinshoe;		
syscall = (void *)kallsyms_lookup_name("system_call");		
old_tbl = (void *)kallsyms_lookup_name("sys_call_table");		
_text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");		

// 拷贝原始的系统调用表,3200个字节有点多了，但绝对不会少。		
memcpy(&new_tbl[0], old_tbl, 3200);		
// 获取新系统调用表的disp32偏移(x86_64带符号扩展)。		
off_new = (unsigned int)((unsigned long)&new_tbl[0]);			

// 在system_call函数的指令码里进行特征匹配，匹配cmp $0x143 %rax		
for (i = 0; i < 0xff; i++) {		
if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {		
nr_addr = (unsigned long)&syscall[i+2];		
break;		
}		
}		
// 在system_call函数的指令码里进行特征匹配，匹配callq  *xxxxx(,%rax,8)		
for (i = 0; i < 0xff; i++) {		
if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {		
call_addr = (unsigned long)&syscall[i+3];		
break;		
}		
}		
// 1. 增加一个系统调用数量
// 2. 使能新的系统调用表
off_old = *(unsigned int *)call_addr;
nr_old = *(unsigned short *)nr_addr;
// 设置新的系统调用入口函数
*(unsigned long *)&new_tbl[nr_old*8 + 8] = new_addr;
nr_new = nr_old + 1;
memcpy(&new_tbl[nr_new*8 + 8], &old_tbl[nr_old*8 + 8], 16);
// poke 代码
_text_poke_smp((void *)nr_addr, &nr_new, 2);
_text_poke_smp((void *)call_addr, &off_new, 4);	
%}		

function syscall_table_clean()			
%{			
_text_poke_smp((void *)nr_addr, &nr_old, 2);		
_text_poke_smp((void *)call_addr, &off_old, 4);		
%}		

probe begin		
{		
syscall_table_poke();		
}			
	
probe end			
{			
syscall_table_clean();			
}

唯一需要解释的就是两处poke：

修改系统调用数量的限制。
修改系统调用表的位置。

我们从system_call指令码中一看便知：


crash> dis system_call		
0xffffffff81645110 <system_call>: swapgs			
...			
# 0x143需要修改为0x144		
0xffffffff81645173 <system_call_fastpath>: cmp    $0x143,%rax			
0xffffffff81645179 <system_call_fastpath+6>: ja 0xffffffff81645241 <badsys>			
0xffffffff8164517f <system_call_fastpath+12>: mov %r10,%rcx			
# -0x7e9b2c40需要被修正为新系统调用表的disp32偏移			
0xffffffff81645182 <system_call_fastpath+15>: callq *-0x7e9b2c40(,%rax,8)			
0xffffffff81645189 <system_call_fastpath+22>: mov %rax,0x20(%rsp)

如果代码正常，那么直接执行上面的stap脚本的话，新的系统调用应该已经生成，它的系统调用号为324，也就是0x143+1。至于说为什么系统调用号必须是逐渐递增的，请看：

	callq *-0x7e9b2c40(,%rax,8)

上述代码的含义是：


call index * 8 + disp32_offset

这意味着内核是按照数组下标的方式索引系统调用的，这要求它们必须连续存放。

好了，回到现实，我们上面的行动是否成功了呢？事情到底是不是我们想象的那样的呢？我们写个测试case验证一下：


// newcall.c		
int main(int argc, char *argv[])			
{		
syscall(324, 1234);		
perror("new system call");		
}

执行之，看结果：


[root@localhost test]# gcc newcall.c			
[root@localhost test]# ./a.out			
new system call: Success		
[root@localhost test]# dmesg		
[ 1547.387847] stap_6874ae02ddb22b6650aee5cd2e080b49_2209: systemtap: 3.3/0.176, base: ffffffffa03b6000, memory: 106data/24text/0ctx/2063net/9alloc kb, probes: 2			
[ 1549.119316] new call----:1234

OK，成功！此时我们Ctrl-C掉我们的stap脚本，再次执行a.out：


[root@localhost test]# ./a.out		
new system call: Function not implemented

完全符合预期。

OK，那么现在开始正事，即新增两个系统调用，sysgetname和syssetname，分别为获取和设置当前进程的名字。

来吧，让我们开始。

其实 newsyscall.stap 已经足够了，稍微改一下即可，但是这里的 稍微改 体现了品质和优雅：

改为oneshot模式，毕竟我不希望有个模块在系统里。

oneshot模式需要动态分配内存，保证在stap模块退出后这块内存不会随着模块的卸载而自动释放。而这个，我已经玩腻了。

直接上代码：


#!/usr/bin/stap -g
// poke.stp
%{
// 为了rel32偏移的可达性，借用模块映射空间的范围来分配内存。
#define START   _AC(0xffffffffa0000000, UL）
#define END     _AC(0xffffffffff000000, UL)

// 保存原始的系统调用表。
unsigned char *old_tbl;
// 保存新的系统调用表。
unsigned char *new_tbl;
// call系统调用表的位置。
unsigned long call_addr = 0;
// 系统调用数量限制检查的位置。
unsigned long nr_addr = 0;
// 原始的系统调用表disp32偏移。
unsigned int off_old;
// 原始的系统调用数量。			
unsigned short nr_old;		
void * *(*___vmalloc_node_range)(unsigned long, unsigned long,		
unsigned long, unsigned long, gfp_t,		
pgprot_t, int, const void *);		
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);		
%}			
					
%{					
// 新系统调用的text被copy到了新的页面，因此最好不要调用内核函数。	
// 这是因为内核函数之间的互调使用的是rel32调用，这就需要校准偏移，太麻烦。		
// 记住：作为例子，不调用printk，也不调用memcpy/memset...如果想秀花活儿，自己去校准吧。		
// 详细的秀法，参见我前面关于rootkit的文章。		
long sys_setskinshoe(char *newname, unsigned int len)		
{		
int i;		
	
if (len > 16 - 1)		
return -1;		

for (i = 0; i < len; i++) {			
current->comm[i] = newname[i];		
}		
current->comm[i] = 0;		
return 0;		
}			

long sys_getskinshoe(char *name, unsigned int len)			
{			
int i;			

if (len > 16 - 1)		
return -1;		

for (i = 0; i < len; i++) {		
name[i] = current->comm[i];		
}		
return 0;		
}		
	
unsigned char *stub_sys_skinshoe;			
%}		

function syscall_table_poke()		
%{		
unsigned short nr_new = 0;		
unsigned int off_new = 0;		
unsigned char *syscall;		
unsigned long new_addr;		
int i;		

syscall = (void *)kallsyms_lookup_name("system_call");		
old_tbl = (void *)kallsyms_lookup_name("sys_call_table");		
___vmalloc_node_range = (void *)kallsyms_lookup_name("__vmalloc_node_range");			
_text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");		

new_tbl = (void *)___vmalloc_node_range(8*500, 1, START, END,		
GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL_EXEC,		
-1, NULL/*__builtin_return_address(0)*/);		
stub_sys_skinshoe = (void *)___vmalloc_node_range(0xff, 1, START, END,			
GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL_EXEC,		
-1, NULL);		
// 拷贝代码指令		
memcpy(&stub_sys_skinshoe[0], sys_setskinshoe, 90);		
memcpy(&stub_sys_skinshoe[96], sys_getskinshoe, 64);		
// 拷贝系统调用表		
memcpy(&new_tbl[0], old_tbl, 3200);			
new_addr = (unsigned long)&stub_sys_skinshoe[0];		
	
off_new = (unsigned int)((unsigned long)&new_tbl[0]);		
// cmp指令匹配		
for (i = 0; i < 0xff; i++) {		
if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {		
nr_addr = (unsigned long)&syscall[i+2];		
break;		
}		
}		
// call指令匹配			
for (i = 0; i < 0xff; i++) {		
if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {
call_addr = (unsigned long)&syscall[i+3];		
break;		
}		
}		

off_old = *(unsigned int *)call_addr;		
nr_old = *(unsigned short *)nr_addr;		
// 设置setskinshoe		
*(unsigned long *)&new_tbl[nr_old*8 + 8] = new_addr;		
new_addr = (unsigned long)&stub_sys_skinshoe[96];		
// 设置getskinshoe		
*(unsigned long *)&new_tbl[nr_old*8 + 8 + 8] = new_addr;
// 系统调用数量增加2个		
nr_new = nr_old + 2;		
// 后移tail stub		
memcpy(&new_tbl[nr_new*8 + 8], &old_tbl[nr_old*8 + 8], 16);
_text_poke_smp((void *)nr_addr, &nr_new, 2);			
_text_poke_smp((void *)call_addr, &off_new, 4);			
// 至此，新的系统调用表已经生效，尽情修改吧！		
%}		
	
probe begin		
{		
syscall_table_poke();		
exit();			
}

顺便，我把恢复原始系统调用表的操作脚本也附带上：


#!/usr/bin/stap -g		
// revert.stp		
%{		
void *(*_text_poke_smp)(void *addr, const void *opcode, size_t len);		
%}		
	
function syscall_table_revert()			
%{			
unsigned int off_new, off_old;			
unsigned char *syscall;		
unsigned long nr_addr = 0, call_addr = 0, orig_addr, *new_tbl;		
// 0x143这个还是记在脑子里吧.			
unsigned short nr_calls = 0x0143, curr_calls;		
int i;			

syscall = (void *)kallsyms_lookup_name("system_call");		
orig_addr = (unsigned long)kallsyms_lookup_name("sys_call_table");
_text_poke_smp = (void *)kallsyms_lookup_name("text_poke_smp");

for (i = 0; i < 0xff; i++) {			
if (syscall[i] == 0x48 && syscall[i+1] == 0x3d) {			
nr_addr = (unsigned long)&syscall[i+2];		
break;		
}		
}		
for (i = 0; i < 0xff; i++) {		
if (syscall[i] == 0xff && syscall[i+1] == 0x14 && syscall[i+2] == 0xc5) {		
call_addr = (unsigned long)&syscall[i+3];		
break;		
}		
}		
curr_calls = *(unsigned short *)nr_addr;		
off_new = *(unsigned int *)call_addr;		
off_old = (unsigned int)orig_addr;		
// decode出自己的系统调用表的地址。		
new_tbl = (unsigned long *)(0xffffffff00000000 | off_new);		
_text_poke_smp((void *)nr_addr, &nr_calls, 2);		
_text_poke_smp((void *)call_addr, &off_old, 4);		

vfree((void *)new_tbl[nr_calls + 1]);		
/*		
// loop free		
// 如果你增加的系统调用比较多，且分布在不同的malloc页面，那么就需要循环free		
for (i = 0; i < curr_calls - nr_calls; i ++) {	
vfree((void *)new_tbl[nr_calls + 1 + i]);			
}		
*/		
// 释放自己的系统调用表		
vfree((void *)new_tbl);		
%}		

probe begin		
{		
syscall_table_revert();		
exit();		
}

来吧，开始我们的实验！

我不懂编程，所以我只能写最简单的代码展示效果，下面的C代码直接调用新增的两个系统调用，首先它获得并打印自己的名字，然后把名字改掉，最后再次获取并打印自己的名字：


#include 		
#include 		
#include 		

int main(int argc, char *argv[])		
{		
char name[16] = {0};		
syscall(325, name, 12);		
perror("-- get name before");		
printf("my name is %s\n", name);		
syscall(324, argv[1], strlen(argv[1]));		
perror("-- Modify name");		
syscall(325, name, 12);		
perror("-- get name after");		
printf("my name is %s\n", name);		
return 0;		
}

下面是实验结果：


# 未poke时的结果		
[root@localhost test]# ./test_newcall skinshoe		
-- get name before: Function not implemented		
my name is		
-- Modify name: Function not implemented		
-- get name after: Function not implemented		
my name is		
[root@localhost test]#		
[root@localhost test]# ./poke.stp 		
[root@localhost test]#		
# poke之后的结果，此时lsmod，你将看不到任何和这个poke相关的内核模块，这就是oneshot的效果。		
[root@localhost test]# ./test_newcall skinshoe		
-- get name before: Success		
my name is test_newcall		
-- Modify name: Success		
-- get name after: Success		
my name is skinshoe		
[root@localhost test]#		
[root@localhost test]# ./revert.stp		
[root@localhost test]#		
# revert之后的结果		
[root@localhost test]# ./test_newcall skinshoe		
-- get name before: Function not implemented		
my name is			
-- Modify name: Function not implemented		
-- get name after: Function not implemented		
my name is		
[root@localhost test]#