nodejs简单实现中英文翻译

2019-11-20 12:33:57

字体：大中小

来源：转载

供稿：网友

帮以前同事解决一个需求，中文项目翻译英文项目~~~

考虑到具体实现方面的问题，如果智能的话，肯定是要做中文的语法分析，不过感觉这个有难度。

所以最后的方案是遍历文件，将中文短语匹配出来，再进行人工翻译，将中文短语替换成翻译的内容。当然后期还是需要人工再检验下，毕竟代码中的中文，可能会影响到相关的程序。

这个问题，明显涉及到多线程，文件读写，第一时间就想到的是 nodejs，虽然nodejs是一个主线程，但是异步文件读写，事件响应机制，肯定也是调用了线程，在实际编程的时候不需要考虑线程的相关的问题。

代码不复杂如下，写完了之后，适当的封装了下

var fs = require('fs');var http = require('http');var filePath = 'D://WORK_new//';var logPath = 'D://chinese.log';var map = {};var num = 0;var dictionary = (function () {  var map = {};  return {    logPath: 'D://chinese.log',    set: function (key, val) {      map[key] = val || '';    },    get: function (key) {      return map[key]||'';    },    save2File: function () {      fs.writeFile(this.logPath, JSON.stringify(map).replace(/","/g,'",/r/n"'),{encoding:'utf8',flag:'w'}, function (err) {        if (err) throw err;      });     },    loadFile: function (callback) {      fs.readFile(this.logPath, {encoding:'utf8'},function (err, data) {        map = JSON.parse(data);        callback();      })    },    translateByGoogle: function (callback) {      var index = 0;      for (var key in map) {        if (map[key] == '') {          index++;          (function (key) {            http.get("http://translate.google.cn/translate_a/t?client=t&hl=zh-CN&sl=zh-CN&tl=en&ie=UTF-8&oe=UTF-8&oc=2&otf=1&ssel=3&tsel=6&sc=2&q="+key, function(res) {              res.setEncoding('utf8');              var body = "";              res.on('data', function (chunk) {                body+=chunk;                }).on('end', function (){                 var obj = eval('('+body+')');                map[key] = obj[0][0][0];                index--;                if (index == 0) {                  callback();                }              });            }).on('error', function(e) {              console.log('http error');              index--;              if (index == 0) {                callback();              }              console.log("Got error: " + e.message);            });          })(key);        }      }    }  }})();function File () {  var index = 0;  var _readFile = function (pathStr, fileBack, doneBack) {    fs.readFile(pathStr,{encoding:'utf8'}, function (err, data) {      index--;      if (err) {        data = "";        console.log(err,pathStr)        //throw err;      }      fileBack(data,pathStr);      if (index == 0) {        doneBack();      }    });  };  var _walkDir = function (pathStr, fileBack, doneBack) {    fs.readdir(pathStr, function (err, files) {      files.forEach(function (file) {        if(fs.statSync(pathStr + '/' + file).isDirectory()){          _walkDir(pathStr + '/' + file, fileBack, doneBack);        } else {          if (/.js$|.html$|.htm$|.jsp$/.test(file)){            index ++;            _readFile(pathStr + '/' + file, fileBack, doneBack);          }          return;        }      });    });  }  this.walkDir = function (pathStr, fileBack, doneBack) {    index = 0;    _walkDir(pathStr, fileBack, doneBack);  }}//第一步 获取中文dictionary.logPath = logPath;new File().walkDir(filePath, function (data) {  if (!!data) {    var match = data.match(/[/u4e00-/u9faf]+/g);    if (!!match) {      match.forEach(function (mat) {        dictionary.set(mat);      })    }  }}, function () {  console.log('获取中文 OK');  dictionary.save2File();})//第二步 google翻译/*dictionary.loadFile(function () {  dictionary.translateByGoogle(function () {    dictionary.save2File();  })});*///第三步 中文替换/*dictionary.loadFile(function () {  new File().walkDir(filePath, function (data,pathStr) {    fs.writeFile(pathStr, data.replace(/[/u4e00-/u9faf]+/g, function (ch) {      return dictionary.get(ch);    }),{encoding:'ascii',flag:'w'}, function (err) {      if (err) throw err;    });   }, function () {    console.log('中文替换 OK');  })});*/

问题还是有的

1.nodejs编码问题，在window环境下对GBK编码支持不好，主要是utf8文件的处理

2.效率上面可能可以再通过线程进行优化，这块没做深入的考虑

3.匹配出来，可能有单个的标点符号的短语等情况，需要人工排查

实际情况中，文件是GBK的，还有些文件是utf8的，后来还是考虑通过脚本语言快手实现的时候，

1.文件编码的问题，判断通过搜索

判断文件首位3个字节是不是 ef bb bf，但是这个只是针对有BOM的utf8格式

对无BOM的utf8格式，需要进行字节特征码的判断（有难度，精力有限，使用了上面的方案，对于无BOM的情况，进行人工排查）。

2.因为快手多线程方便编程很简单，一直以为多线程肯定比单线程效率要好。实际情况却和想的不一样，单线程的比多线程的快多了。看来主要瓶颈还是在读写文件IO上面。

以上所述就是本文全部内容了，希望大家能够喜欢。

上一篇：javascript多行字符串的简单实现方式

下一篇：nodejs调用cmd命令实现复制目录