90分钟实现一门编程语言——极简解释器教程

2019-11-17 03:16:21

字体：大中小

来源：转载

供稿：网友

90分钟实现一门编程语言——极简解释器教程

关键字

解释器, C#, Scheme, 函数式编程

关于

本文介绍了如何使用C#实现一个简化但全功能的Scheme方言——iScheme及其解释器，通过从零开始逐步构建，展示了编程语言/解释器的工作原理。

作者

Lucidaa.k.aLuc

如果你是通过移动设备阅读本教程，或者认为本文的代码字体太小的，请使用该链接以获得更好的可读性（博客园的markdown解析器实在诡异，这里就不多吐槽了）。

提示

如果你对下面的内容感兴趣：

实现基本的词法分析，语法分析并生成抽象语法树。
实现嵌套作用域和函数调用。
解释器的基本原理。
以及一些C#编程技巧。

那么请继续阅读。

如果你对以下内容感兴趣：

高级的词法/语法分析技术。
类型推导/分析。
目标代码优化。

本文则过于初级，你可以跳过本文，但欢迎指出本文的错误 :-)

代码样例

代码示例

public static int Add(int a, int b) {    return a + b;}>> Add(3, 4)>> 7>> Add(5, 5)>> 10

这段代码定义了Add函数，接下来的>>符号表示对Add(3, 4)进行求值，再下一行的>> 7表示上一行的求值结果，不同的求值用换行分开。可以把这里的>>理解成控制台提示符（即Terminal中的PS）。

什么是解释器

解释器图示

解释器（InterPReter）是一种程序，能够读入程序并直接输出结果，如上图。相对于编译器（Compiler），解释器并不会生成目标机器代码，而是直接运行源程序，简单来说：

解释器是运行程序的程序。

计算器就是一个典型的解释器，我们把数学公式（源程序）给它，它通过运行它内部的"解释器"给我们答案。

CASIO 计算器

iScheme编程语言

iScheme是什么？

Scheme语言的一个极简子集。
虽然小，但变量，算术|比较|逻辑运算，列表，函数和递归这些编程语言元素一应俱全。
非常非常慢——可以说它只是为演示本文的概念而存在。

OK，那么Scheme是什么？

一种函数式程序设计语言。
一种Lisp方言。
麻省理工学院程序设计入门课程使用的语言（参见MIT 6.001和《计算机程序的构造与解释》）。

计算机程序的构造与解释

使用波兰表达式（Polish Notation）。
更多的介绍参见Scheme编程语言。

以计算阶乘为例：

C#版阶乘

public static int Factorial(int n) {    if (n == 1) {        return 1;    } else {        return n * Factorial(n - 1);    }}

iScheme版阶乘

(def factorial (lambda (n) (    if (= n 1)       1       (* n (factorial (- n 1))))))

数值类型

由于iScheme只是一个用于演示的语言，所以目前只提供对整数的支持。iScheme使用C#的Int64类型作为其内部的数值表示方法。

定义变量

iScheme使用def关键字定义变量

>> (def a 3)>> 3>> a>> 3

算术|逻辑|比较操作

与常见的编程语言（C#, java, C++, C）不同，Scheme使用波兰表达式，即前缀表示法。例如：

C#中的算术|逻辑|比较操作

// Arithmetic opsa + b * ca / (b + c + d)// Logical ops(cond1 && cond2) || cond3// Comparing opsa == b1 < a && a < 3

对应的iScheme代码

; Arithmetic ops(+ a (* b c))(/ a (+ b c d)); Logical ops(or (and cond1 cond2) cond3); Comparing ops(= a b)(< 1 a 3)

需要注意的几点：

iScheme中的操作符可以接受不止两个参数——这在一定程度上控制了括号的数量。
iScheme逻辑操作使用and,or和not代替了常见的&&,||和!——这在一定程度上增强了程序的可读性。

顺序语句

iScheme使用begin关键字标识顺序语句，并以最后一条语句的值作为返回结果。以求两个数的平均值为例：

C#的顺序语句

int a = 3;int b = 5;int c = (a + b) / 2;

iScheme的顺序语句

(def c (begin    (def a 3)    (def b 5)    (/ (+ a b) 2)))

控制流操作

iScheme中的控制流操作只包含if。

if语句示例

>> (define a (if (> 3 2) 1 2))>> 1>> a>> 1

列表类型

iScheme使用list关键字定义列表，并提供first关键字获取列表的第一个元素；提供rest关键字获取列表除第一个元素外的元素。

iScheme的列表示例

>> (define alist (list 1 2 3 4))>> (list 1 2 3 4)>> (first alist)>> 1>> (rest alist)>> (2 3 4)

定义函数

iScheme使用func关键字定义函数：

iScheme的函数定义

(def square (func (x) (* x x)))(def sum_square (func (a b) (+ (square a) (square b))))

对应的C#代码

public static int Square (int x) {    return x * x;}public static int SumSquare(int a, int b) {    return Square(a) + Square(b);}

递归

由于iScheme中没有for或while这种命令式语言（Imperative Programming Language）的循环结构，递归成了重复操作的唯一选择。

以计算最大公约数为例：

iScheme计算最大公约数

(def gcd (func (a b)    (if (= b 0)        a        (func (b (% a b))))))

对应的C#代码

public static int GCD (int a, int b) {    if (b == 0) {        return a;    } else {        return GCD(b, a % b);    }}

高阶函数

和Scheme一样，函数在iScheme中是头等对象，这意味着：

可以定义一个变量为函数。
函数可以接受一个函数作为参数。
函数返回一个函数。

iScheme的高阶函数示例

; Defines a multiply function.(def mul (func (a b) (* a b))); Defines a list map function.(def map (func (f alist)    (if (empty? alist)        (list )        (append (list (f (first alist))) (map f (rest alist)))        ))); Doubles a list using map and mul.>> (map (mul 2) (list 1 2 3))>> (list 2 4 6)

小结

对iScheme的介绍就到这里——事实上这就是iScheme的所有元素，会不会太简单了？ -_-

接下来进入正题——从头开始构造iScheme的解释程序。

解释器构造

iScheme解释器主要分为两部分，解析（Parse）和求值（Evaluation）：

解析（Parse）：解析源程序，并生成解释器可以理解的中间（Intermediate）结构。这部分包含词法分析，语法分析，语义分析，生成语法树。
求值（Evaluation）：执行解析阶段得到的中介结构然后得到运行结果。这部分包含作用域，类型系统设计和语法树遍历。

词法分析

词法分析负责把源程序解析成一个个词法单元（Lex），以便之后的处理。

iScheme的词法分析极其简单——由于iScheme的词法元素只包含括号，空白，数字和变量名，因此C#自带的String#Split就足够。

iScheme的词法分析及测试

public static String[] Tokenize(String text) {    String[] tokens = text.Replace("(", " ( ").Replace(")", " ) ").Split(" /t/r/n".ToArray(), StringSplitOptions.RemoveEmptyEntries);    return tokens;}// Extends String.Join for a smooth API.public static String Join(this String separator, IEnumerable<Object> values) {    return String.Join(separator, values);}// Displays the lexes in a readable form.public static String PrettyPrint(String[] lexes) {    return "[" + ", ".Join(lexes.Select(s => "'" + s + "'") + "]";}// Some tests>> PrettyPrint(Tokenize("a"))>> ['a']>> PrettyPrint(Tokenize("(def a 3)"))>> ['(', 'def', 'a', '3', ')']>> PrettyPrint(Tokenize("(begin (def a 3) (* a a))"))>> ['begin', '(', 'def', 'a', '3', ')', '(', '*', 'a', 'a', ')', ')']

注意

个人不喜欢String.Join这个静态方法，所以这里使用C#的扩展方法（Extension Methods）对String类型做了一个扩展。
相对于LINQ Syntax，我个人更喜欢LINQ Extension Methods，接下来的代码也都会是这种风格。
不要以为词法分析都是这么离谱般简单！vczh的词法分析教程给出了一个完整编程语言的词法分析教程。

语法树生成

得到了词素之后，接下来就是进行语法分析。不过由于Lisp类语言的程序即是语法树，所以语法分析可以直接跳过。

以下面的程序为例：

程序即语法树

;(def x (if (> a 1) a 1)); 换一个角度看的话：(    def    x    (        if        (            >            a            1        )        a        1    ))

更加直观的图片：

抽象语法树

这使得抽象语法树（Abstract Syntax Tree）的构建变得极其简单（无需考虑操作符优先级等问题），我们使用SExpression类型定义iScheme的语法树（事实上S Expression也是Lisp表达式的名字）。

抽象语法树的定义

public class SExpression {    public String Value { get; private set; }    public List<SExpression> Children { get; private set; }    public SExpression Parent { get; private set; }    public SExpression(String value, SExpression parent) {        this.Value = value;        this.Children = new List<SExpression>();        this.Parent = parent;    }    public override String ToString() {        if (this.Value == "(") {            return "(" + " ".Join(Children) + ")";        } else {            return this.Value;        }    }}

然后用下面的步骤构建语法树：

碰到左括号，创建一个新的节点到当前节点（current），然后重设当前节点。
碰到右括号，回退到当前节点的父节点。
否则把为当前词素创建节点，添加到当前节点中。

抽象语法树的构建过程

public static SExpression ParseAsIScheme(this String code) {    SExpression program = new SExpression(value: "", parent: null);    SExpression current = program;    foreach (var lex in Tokenize(code)) {        if (lex == "(") {            SExpression newNode = new SExpr








上一篇：读取IE缓存文件


下一篇：c# 学习笔记（二）














发表评论
共有条评论






用户名:

密码:



验证码:

 

匿名发表


















学习交流
更多





索泰发布一款GTX 1070 Mini迷


AMD新旗舰显卡轻松干翻NVIDIA 






索泰发布一款GTX 1070 Mini迷你版本:小机
索泰发布一款GTX 1070 Mini迷你版本:小机箱大爱...






usb无线网卡怎么用,小编告诉你安装教程09-10

usb调试在哪,小编告诉你usb调试在哪09-10

优盘不显示,小编告诉你优盘不显示怎么办09-10

低级格式化,小编告诉你硬盘怎么低级格式化09-10




帝国cms分类信息的所在地在的修改09-08

将网站地图和友情链接table样式改为div+css09-08

用帝国cms实现不规则新闻或信息调用（应大站09-08

帝国调用DZ论坛精华帖09-08

用灵动标签调用discuz和phpwind的最新贴子09-08







热门图片
更多




芭蕾舞蹈表演，真实美到极致


下午茶时间，悠然自得的休憩




充斥这繁华奢靡气息的城市迪拜风景图片


从山间到田野再到大海美丽的自然风景图片




肉食主义者的最爱美食烤肉图片


夏日甜心草莓美食图片




人逢知己千杯少，喝酒搞笑图集


搞笑试卷，学生恶搞答题







猜你喜欢的新闻


荣耀总裁赵明乌镇演讲：荣耀首款5G手机V30下

搜狐张朝阳：回归媒体是搜狐重新崛起的关键

华为轮值董事长郭平：虚拟技术创造现实价值

第六届世界互联网大会开幕“to B”端成热门

滴滴英文服务上线两周年 用户已超200万

华为推出全球至快AI训练集群Atlas900

马斯克：特斯拉正组建中国技术团队

10年后6G将问世 速度有望比5G快100倍

WeworkCEO称已开始考虑未来职位 不排除放弃

谷歌软件商店模式变革：推出5美元会员 可用数





猜你喜欢的关注


聊天室实现私聊(一)

聊天室实现私聊(二)

聊天室实现私聊(三)

聊天室实现私聊(四)

网页在线人数统计的做法

ADO存取数据时如何实现留言记录的分页显示

一个简单聊天室的建立.(供学习参考)

构建你的网站新闻自动发布系统之一

构建你的网站新闻自动发布系统之二

构建你的网站新闻自动发布系统之三











新闻热点





荣耀总裁赵明乌镇演讲：荣耀首款5G手机V30下月发布
2019-10-23 09:17:05






搜狐张朝阳：回归媒体是搜狐重新崛起的关键
2019-10-21 09:20:02






华为轮值董事长郭平：虚拟技术创造现实价值
2019-10-21 09:00:12






滴滴英文服务上线两周年 用户已超200万
2019-09-26 08:57:12






华为推出全球至快AI训练集群Atlas900
2019-09-25 08:46:36






马斯克：特斯拉正组建中国技术团队
2019-09-25 08:15:43











疑难解答




索泰发布一款GTX 1070 Mini迷你版本:小机箱

AMD新旗舰显卡轻松干翻NVIDIA 有几个点我们

i5 6500配什么显卡最佳？i5 6500配1060显卡可

AMD新一批显卡曝光:更便宜的14nm北极星

A卡自修改BIOS安装16.12.1 ReLive驱动教程 

2016笔记本显卡性能哪个好？笔记本显卡天梯图

2016显卡性能怎么看好坏 显卡天梯图2016年1

PS4 Pro显卡解析:显存带宽相当于标准版PS4

iGame 1050烈焰战神U-2GD5版图赏版:最美非

EVGA FTW GTX 1080/1070显卡存在严重问题:







图片精选




使用ASP建设私人搜索引擎



华为短消息中心的发展与应用



移动通信计费及客户服务系统



移动客户服务中心系统











网友关注




u盘无法识别怎么办,小编告诉你U盘无法识别怎

usb无线网卡怎么用,小编告诉你安装教程

usb调试在哪,小编告诉你usb调试在哪

优盘不显示,小编告诉你优盘不显示怎么办

低级格式化,小编告诉你硬盘怎么低级格式化

分区表丢失,小编告诉你分区表丢失如何修复

进入bios,小编告诉你戴尔笔记本进入bios设置u

怎么刷bios,小编告诉你华硕怎么刷bios

读卡器怎么用,小编告诉你如何使用读卡器

bios升级,小编告诉你华硕主板bios怎么升级