在Windows和Linux上解压Python可执行文件

在Windows和Linux上解压Python可执行文件

用 python 编程语言编写的传统程序作为源代码分发,python 解释器用于运行它们。如果运行自己的 python 代码,这很容易;但是,以这种方式交付商业产品相当麻烦。为了解决这个问题,创建了几个项目,可以将 python 程序及其所有依赖项捆绑到一个可执行文件中:Windows 上的可移植可执行文件 (PE) 和 Linux/Unix 上的可执行和可链接格式 (ELF)。

Python 恶意软件也作为打包的可执行文件分发。如果我们谈论恶意软件,总是会出现这样的问题:“我们如何解压和反编译恶意软件以查看其 python 源代码?”  我在两年前创建的视频中讨论了这个话题 。但是从那以后,新的python版本问世了,解包技术也发生了变化。

在这篇博文中,我们将讨论以下主题:

  • 包装
  • 在python 3.9以下的Windows上解包和反编译
  • python 3.9版本后Linux上的解包和反编译

区分较旧和较新的 python 版本很重要,因为在 python 3.9 之后发生了很多变化,包括如何生成 python 字节码以及如何(以及是否)可以恢复源代码。

受影响的平台:  Windows、Linux/Unix

包装

首先,让我们讨论一下 python 打包是什么——特别是 PyInstaller。(注意:我交替使用术语打包、打包和捆绑。)打包 python 程序的目标是创建一个可以在操作系统上独立运行的可执行文件。我们不应将此与一般恶意软件打包混淆,后者的目标是向分析师和安全工具隐藏恶意代码。Python 打包不打算提供任何安全性或混淆。这只是包装的副作用。当我们捆绑一个 python 程序时,我们用于打包的工具,例如 PyInstaller,会执行以下操作:

  • 将所有.py源文件编译为 python 字节码(.pyc文件)
  • 收集所有python编译的源代码和python依赖
  • 包括依赖于操作系统的 python 解释器(即Linux上的libpython3.9.so.1.0或 Windows 上的python37.dll)
  • 将所有这些与一个存根捆绑在一起,该存根首先将这些文件解压缩到磁盘或内存中,然后使用包含的解释器执行原始 python 代码。

虽然有一些项目可以创建此类打包的可执行文件,但最著名的是 PyInstaller

为了了解打包的工作原理,我们在 Windows 上创建了一个打包的 python 可执行文件。图 1 显示了一个极其复杂的示例程序,需要计算机工程硕士学位和大约 10 年的编程经验。

在Windows和Linux上解压Python可执行文件
图 1 – 测试程序“evil_program.py”

我们可以很容易地在 Windows 终端中运行这个程序,如图 2 所示。

在Windows和Linux上解压Python可执行文件
图 2 – 运行 evil_program.py

要将这个 python 程序转换为一个打包的 EXE 文件,我们可以使用 PyInstaller,它是我安装在 python 虚拟环境中的(图 3)。

在Windows和Linux上解压Python可执行文件
图 3 – 使用 PyInstaller 创建 EXE

值得您花时间滚动浏览日志,因为它们可以让您深入了解 PyInstaller 在幕后所做的事情。完成后,新创建的evil_program.exe将列在\dist\文件夹下。图 4 显示我们可以运行此可执行文件并获得与直接运行代码相同的结果。最大的不同是我们现在可以将这个 EXE 文件移动到另一台 Windows 机器上,它应该独立运行而没有任何 python 依赖。

在Windows和Linux上解压Python可执行文件
图 4 – 运行新创建的 EXE 文件

在 Windows 上解包 python < 3.9

现在我们有了一个打包的 EXE 文件,我们可以尝试将其还原为 python 源代码。在真正的逆向工程场景中,第一个问题通常是,“我们如何发现被分析的二进制文件是一个打包的 Python 程序?” 最常见的线索是我们会看到很多以py开头的字符串(图 5)。

在Windows和Linux上解压Python可执行文件
图 5 – 在二进制字符串中搜索“py”

特别是对于 PyInstaller,我们还将在二进制文件中看到字符串MEIPASS 。

第二个问题是,“程序使用的是哪个 python 版本?” 找出这一点的最简单方法是运行程序并监视在操作系统 (OS) 的临时文件夹中创建了哪些文件。那是因为 PyInstaller 首先解压临时文件夹中的所有文件。通过监视文件系统活动,我们可以看到python38.dll(图 6)保存在临时文件夹中。这告诉我们,python 3.8 用于创建打包程序,因此我们需要相同的 python 版本来进行所有进一步的分析。

在Windows和Linux上解压Python可执行文件
图 6 – 监控文件系统活动

要恢复源代码,我们必须解决两个挑战:

  1. 从 EXE 文件中解压缩所有文件。这将为我们提供编译的 python 字节码 ( .pyc ) 文件
  2. 反编译有趣的.pyc文件

在所有操作系统下所有版本的python中解压EXE文件的过程都会是相似的。更大的挑战是反编译.pyc文件,因为每个 python 版本和工具中的更改仅适用于特定版本。

为了解压这个 EXE 文件,我们将使用 pyinstxtractor。只需将 pyinstxtractor.py 下载到您要使用它的文件夹中(图 7 显示了如何执行此操作)。需要注意的一个重要细节是使用的 python 解释器必须与打包的python 程序的版本相同。

在Windows和Linux上解压Python可执行文件
图 7 – 解压 evil_program.exe

另一个重要的细节是 pyinstxtractor 还提供了关于哪些文件可能是 python 程序的主文件的提示。经常会有一些误报,但如果分析的项目很大,这仍然是一个巨大的帮助。在这种情况下,我们知道主文件是evil_program.pyc。EXE 被解压到evil_program.exe_extracted文件夹中(图 8)。

在Windows和Linux上解压Python可执行文件
图 8 – 提取的 .pyc 文件

下一步是反编译evil_program.pyc。为此,我们将使用一个名为 uncompyle6的工具。同样,在这一点上,人们必须了解 python 版本并查阅用于反编译的工具的文档。Uncompyle6 最多只支持 python 3.8。之后,您将不得不寻找另一个工具(我们将在下一节中讨论)。反编译过程如图 9 所示。

在Windows和Linux上解压Python可执行文件
图 9 – 反编译 evil_program.pyc

这样,我们就达到了我们的目标,并恢复了这个简单的打包 python 程序的源代码。

在 Linux 上解压 python >= 3.9

在本节中,我们将使用更新的 python 版本在 Linux 下完成相同的过程。我们将分析的文件是我们在最近的威胁搜寻期间在 VirusTotal 上发现的真实恶意软件样本。关于这个二进制文件的更多信息可以在 VirusTotal上找到。一旦我对文件进行了逆向工程,我认为写一篇关于解压过程的博客文章会很有趣。在这篇文章中,我们不会专注于对样本的分析。

为了解压样本,我们再次使用 pyinstxtractor,但有一个 转折。图 10 显示样本是 64 位 ELF 二进制文件。我们不能直接在 ELF 二进制文件上使用 pyinstxtractor。因此,我们首先需要将文件的pydata部分转储到一个单独的文件中并在其上运行 pyinstxtractor。

在Windows和Linux上解压Python可执行文件
图 10 – pydata 部分的转储

解包如图 11 所示。同样,我们需要注意使用正确的 python 版本,在本例中为 3.9。

在Windows和Linux上解压Python可执行文件
图 11 – 解压 pydata.dump

解压后的数据中有一个RansomWare.pyc,这一事实使我们正在处理的内容一目了然。

使用 python 3.9 我们不能再使用uncompyle6。相反,我们可以使用像 Decompyle++这样的工具,这是一个非常有前途的项目,它使用不同的、更通用的方法进行反编译。但是,网站上并没有很好地解释如何构建项目,因此图 12 向您展示了如何下载和构建它。 

在Windows和Linux上解压Python可执行文件
图 12 – 构建 Decompile++ pycdc

要从任何地方调用pycdc命令,我们也可以运行sudo make install

pycdc命令是反编译器,因此我们使用它来恢复 RansomWare.pyc 的源代码,如图13所示

在Windows和Linux上解压Python可执行文件
图 13 – 反编译 RansomWare.pyc

至此,我们已经达到了恢复大部分RansomWare.py原始源代码的目标。不幸的是,我们也可能会看到类似图 14 中的函数,其中反编译在某些时候失败。

在Windows和Linux上解压Python可执行文件
图 14 – 无法反编译 write_key() 函数

当我们反编译字节码时,这也发生在 Java 和 .Net 中。有时,反编译器会失败,我们只能得到部分代码。在这种情况下,我们需要找到其他方法来确定该函数中发生了什么,例如动态分析。在这种情况下,我们可以使用pycdas命令来恢复“反汇编”的字节码。在那里我们可以查找反编译失败的函数。图 15 显示了write_key() 函数的字节码反汇编。

在Windows和Linux上解压Python可执行文件
图 15 – write_key() 函数的字节码反汇编

在本节的开头,我提到我们不会分析样本。它看起来像勒索软件,python 代码是为 Windows 编写的,但打包为 ELF 可执行文件,通常在 Linux/Unix 系统上运行。这可能表明该示例适用于 Linux 的 Windows 子系统 (WSL)。但这是另一篇博客文章的故事。

结论

在这篇博文中,我们介绍了如何解压和反编译使用 PyInstaller 打包的 Python 程序。我们还讨论了以下场景:

  • windows
  • Linux
  • Python 版本大于或等于 3.9
  • Python 版本低于或等于 3.8

逆向工程 python 恶意软件非常有用,因为我们可以在源代码级别对其进行分析,这当然效率更高。

侵害指标(IOCs)

对于讨论的勒索软件样本:

Hxxps://images[.]idgesg[.]net/images/article/2018/02/ransomware_hacking_thinkstock_903183876-100749983-large[.]jpg
lynrx_at_protonmail[.]com
fernet_key.txt
EMAIL_ME.txt

from

转载请注明出处及链接

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注