0018 自由才是翻译的精髓(1/2)
等周磊去倒了杯水回来后,软件里显示:“现在的同声翻译软件一点也不好用,你问它干什么?”
周磊原原本本的把张杰遇到的问题,告诉了黑客大佬。
大佬回了一串省略号,十分钟后,他通过软件传过来一个软件包。
周磊接收后,解压后安装,执行exe文件的时候,提示缺少语音库。
“嘿,大佬,你的软件不全啊,还少语音库。”
“懂个啥啊,加上语音库你电脑都装不下,你以为语音库就是现成的?自己去弄。软件目录下面有一个生成工具,你看里面的文档,自己去建语音库。这个软件不是那种傻兮兮的,切换到什么语言就只能识别什么语言的。”
“就是说我可以把很多种语言的语音库都放在一起,软件也可以自动识别出来。”
“就是这个意思,不然那些说话带英文单词的人会不会很难受。”黑客大佬回了话后,就不再搭理周磊了。
周磊把生成语音库的工具单独的复制出来,怎么样才能把各种语言的语音库都收集到,这个可是一个巨大的工程啊。
还是先做常用的中文语音库吧,去问两家翻译软件公司买,估计人家都不愿搭理你。
周磊还是用python吧,找一些视频网站,让软件在后台开着,前面一直在放视频吧,这样只要有足够多的时间,就可以生成一个识别率至少四个九的语音库。不过大夏国数不清的方言,就只能慢慢来了。
这活可不能在自己笔记本上跑,跑起来可能需要几个月的时间。
周磊给集成商打了个电话,叫他们送了十台低端的pc服务器过来,国产的就可以了。然后在机房又租了几个标准机柜,让集成商安装好。
几天后,周磊把工具软件和自己写的脚本都放了上去,让服务器开始跑起来。
假如那天维护人员打开这些服务器连接的kvm,就会发现屏幕上一直在播放着各种语言的视频,有电视剧、纪录片、新闻等等,只要薯片站上有的,它就会随机播放。
语音库以一个肉眼可见的速度在缓慢变大,从0kb慢慢的增长为一个超过300gb的巨大文件,这个还不止一个,是十个300gb文件。
周磊估计到最后进行消重合并的时候,至少也会有1个多t的大小。
语音库文件的增长速度变慢,一天都不能增加100mb,周磊觉得差不多了。他远程把十个语音库复制到了一个目录下,现在的服务器上的硬盘都插的多,而且还大,所以没有什么问题。
打开了工具软件,把导入的目录指向到了那个目录里,软件立刻就发现了所有的语音库文件包,并且显示出合并后的文件大小。
周磊觉得自己小看了语音包的大小,合并后还有1.5tb,这个太大了。
忽然他发现还有一个按钮显示着“分割”,尝试着点了一下。发现这个功能非常的好,可以把语音包分割成基础包和网络包,或者是按照语种划分,但那就没有必要了。
按照语种划分,就没有翻译的用处,只有语音转文字了,但是这个用于语音输入法还是不错的,但周磊暂时没有想要进这个不赚钱的行业里。更何况“某飞”做的还算可以,只是有时候输入法会犯傻,自己完全没必要进这个红海市场。
周磊选择了基础包和网络包,这样软件可以直接读取一些常用单词的语音库,如果找不到对应的数据,就会上服务器进行查询。
这不就又是一门生意吗?这个生意自己就能做,这样就不用让办公室里一群人天天无聊的要死。
周磊把基础包复制到自己电脑上,然后打开了同声翻译软件,念了几句差不多非常简单的中文对话句子,软件就迅速的翻译成了英语,这个是默认的选项。
在经过测试几个科技文献后,周磊发现了一个问题,能够正常的识别中英文的语音,但是对于翻译的质量差的太远了。英语翻译成中文没有问题,中文翻译成英文就好像几年前的机翻或者中式英语。估计是自己让软件一直在国内网站上学习的原因,但是国外很多网站是不存在的。
那可怎么办?
有钱就有办法,周磊挑选了一下,找了亚马逊的云服务器服务,一口气下了二十台的整机的单子,租了一年,现在一点也不差钱,还要了无限流量。
同样的他把工具软件和修改后的脚本往上面一扔,就等着十天半个月后的收割。
一个月后……
83中文网最新地址www.83zws.com本章未完,点击下一页继续阅读。