灼眼的piku吧 关注:338贴子:36,653

【青空文库】《灼眼のシャナ》TXT录入补完计划

只看楼主收藏回复

简单来说本贴只是在下对夏娜原文小说电子化的第一步而已
包括个人针对青空文库编集方法和录入计划等等记载


IP属地:中国香港1楼2014-02-26 19:41回复
    【有关青空文库TXT格式】


    本来青空文库指的是将日本超过著作权限作品电子化的计划
    青空文库TXT格式简单来说就是通过特定方法编辑日语纯文字文本(.TXT)
    好扔到特定的阅读器(后述)上显示为附有汉字假名标注等等一连串特殊样式效果
    其中牵涉到包括RUBY在内的XHTML/CSS处理技术
    【青空文库TXT文本阅读与编辑】


    不论阅读和编辑均需要基本日语能力
    - 阅读器方面由较早期的(||karasu.xrea.bz/soft_tobira.shtml)
    到较新的AIR草纸(||satokazzz.com/airzoshi-desktop)也有
    - 至於编辑工具方面除了M$内置的记事本之外还能用其他文本编辑软件如
    Mery(||haijin-boys.com/wiki/)和EmEditor(||emeditor.com,在下用这个)
    【青空文库TXT格式编辑工序】


    - 最基本的是以《》包著前述汉字要标示的假名例子如下
    灼眼《しゃくがん》のシャナ
    当然也有很多在这以外的tags可以使用(见参考资料 注记一览)
    - 编辑上方面分为入力(输入)及校正两大部份
    输入除了透过人手手工码字之外就是用能识别日文的OCR(光学字符识别)工具
    一般线上ocr(包括谷歌文件内置的)对典型轻小说直式排版+假文标注很是无能
    故个人比较推荐的工具是GT Text(||code.google.com/p/gttext/)
    - 文本基本输完成后就是校正工作(特别是针对OCR相近字型的视力大考验)
    【参考连结及工具】


    HTML版工作员作业マニュアル ||aozora.gr.jp/KOSAKU/MANU_MOKU.html
    注记一覧 ||aozora.gr.jp/annotation
    校正は缲り返し行う ||aozora.gr.jp/KOSAKU/MANUAL_4.html#kosei_kurikaeshi
    工作员手帐 ||eunheui.sakura.ne.jp/aozora/
    青空文库テキストの入力方法 ||showryu.web.fc2.com/aozora/kaisetsu.html
    青空文库形式入力エディタ(β版) ||showryu.web.fc2.com/aozora/aozoraeditor.html
    Meryを青空文库形式のエディタとしてつかう
    ||99nyorituryo.hatenablog.com/entry/2013/09/22/214857
    青空文库エディターの使い方
    ||99nyorituryo.hatenablog.com/entry/2013/10/09/220711


    IP属地:中国香港本楼含有高级字体2楼2014-02-26 20:24
    收起回复
      【补完计划详情】


      目标:全部原文小说内容(包括单行本未收录外传/番外)
      进行全面收录和重新校对
      有空再来动画歌词和广播剧文本甚麼甚麼……
      文本编码一概沿用日本既有文本的SHIFT-JIS
      之后分别转成UTF-8加修系统依存汉字以及PDF方便查阅
      终极目标是建立数据库供小说文本考据使用
      目前既存由11区流出的青空文库格式TXT:
      0-16, S, リシャッフル(画集《红莲》小说)
      おじょうさまのしゃな(画集《华焰》小说)
      かぐやひめのしゃな(画集《苍炎》小说)
      已有OCR&假名标注(非RUBY格式,未校对):
      フューチャー&ホープ(小柯小哀联译时的东西)
      在下目前作业坑:
      SII《ヤーニング》(收录完成,校对中)
      さんじゅうしのしゃな(画集《遮那》小说,收录及校对接近完成)
      【待开坑清单】


      17-22, SIII
      解说书小说《ボールルーム》《ジャグル》《アンコール》
      SII全卷这坑在下要了
      如无人抢坑在下会先完成S3及解说书小说
      之后才选择性开本篇的坑


      开坑纯属自愿绝对无酬
      抢入力/校正坑者先回贴
      可向在下索取原文或支援
      但必须定时自行汇报进度


      IP属地:中国香港本楼含有高级字体3楼2014-02-26 20:44
      收起回复
        很牛逼的感觉desu


        IP属地:江苏来自Android客户端4楼2014-02-26 21:02
        收起回复
          我只会用CTex排版


          IP属地:云南来自Android客户端5楼2014-02-26 22:53
          收起回复
            令在下好奇的是这种txt 格式的夏娜小说中文版原文在网上很容易就能找到,日文版的话日本那边应该早有人录入才对啊


            来自Android客户端7楼2014-02-26 23:35
            收起回复
              【3/3 进度】


              基本校对完成:S2《思念》、三统士夏娜
              入力中:法利亚格尼信箱3(S2)&4(S3)
              细心看下才发觉有好几种振假名的形式要兼顾
              部份是置中有部份是开首
              另外还要处理RUBY整个词或是分开的问题……
              然后在下察觉到多一个17卷及后没人录入TXT的原因
              876在文中用了更多SHIFT-JIS编码不支援的汉字
              比如是“蓦地祲”的「祲」字便是所谓机种依存字元
              必须在Unicode之下才能显示(另一个例子是女娲的「娲」
              於是这注定了要录入其他卷数的话便需要全部存成UTF-8
              S2《思念》入力时里面也有察觉到不同的汉字使用
              比如是「搔」及「掴」已有代替字元(掻)(掴)
              但「祲」和「娲」可没办法解决……


              IP属地:中国香港本楼含有高级字体8楼2014-03-03 00:50
              收起回复
                【3/15】
                解说书2的小说坑《ENCORE》OCR录入完成
                预料今周末能加好RUBY和校对完毕
                不仔细读根本不知道这是夏娜作品读者解读能力的最大考验
                表面上看起来没甚麼的内容包含了大量以关键字写入的资讯
                区区的动画党要读出甚麼来简直天方夜谭
                一如《未来与希望》这篇是以展望将来为本
                主要讨论的是无何有镜的大形势
                还有有关威尔艾米娜等主角们日后的身份和去向
                果然『理』之后就是『法』哩
                虽然距离清晰成形还有很远的路


                IP属地:中国香港9楼2014-03-15 02:41
                收起回复
                  【3/16】


                  SII《居所》开坑
                  发现GTText的学习功能略有小成
                  日后重装也必须备份这份学习文件
                  OCR了5张的结果比以前快和有进步(就差で变成ゼ这类问题)
                  另外也不是头一次发现作品中引号使用的规则出问题了
                  神器名称应该是用"″才对而不是『』
                  偶然也有挺明显的振假名出错(?)
                  就不说必须用UTF-8为机种依存文字建立文件甚麼的……


                  IP属地:中国香港本楼含有高级字体10楼2014-03-16 03:03
                  收起回复
                    【《夏娜》里的机种依存字元汉字】
                    除了之前提及过的(掴)(掻)之外
                    角色真名部份有以下例子
                    の换え手 *简体字 躯
                    蜴の帅 ※〔#「兀にょう+虫」、第4水准2-87-29〕
                    惮慑の
                    弄巧の
                    邪の刻屈
                    蓦地
                    哮呼の
                    征辽の
                    展翅
                    覚の
                    羿
                    彦士
                    意外地「无穷の闻き手」里用的确是简化字「无」
                    这和文中的「无言」之类代表威尔艾米娜的词语使用繁体字的完全不同


                    IP属地:中国香港本楼含有高级字体11楼2014-03-23 03:13
                    回复
                      其实话说 我曾经非常认真地校对过夏娜的第一卷台版。


                      IP属地:中国香港12楼2014-03-23 17:19
                      收起回复
                        话说还有那些短篇是没有中译的,目前?


                        IP属地:中国香港13楼2014-03-23 17:43
                        收起回复
                          【3/24】17卷开坑
                          粗略计算约220页本文到目前为止只是OCR了10%
                          以在下1小时6页计算光是OCR全本便要36小时
                          大部份情况下平均平日只有10页左右的速度
                          也就是说含周末工作量OCR全卷最少2周跑不掉
                          看来连RUBY和校正预算完成全本最少1个月无误(这也和以往日本自炊职人速度相若)
                          本来打算将SII剩下来的《ゾートロープ》也搞起好完成全本SII
                          但短篇毕竟是(相对)沉闷的本篇之间调剂用的就先放著比较好
                          反正在下的目标是连后记都要处理掉
                          在目前不是所有现存本篇都有后记的情况下这里有一定的工作量
                          另外昨天才想起青空阅读器的「纵中横」能在直行同排显示2个半角字
                          也就是说将!?之类变成半角!?便能当成一个全角字般一起显示了
                          加上将之前码好的《思念》的RUBY修正(主要是将之前拆开的词合并)
                          昨天花了半天在这里要到18时左右才正式开坑
                          另外GT Text经在下调教后似乎只对小说内文字型的辨识度较高……


                          IP属地:中国香港14楼2014-03-24 01:54
                          收起回复
                            【IME辞典】
                            收录自||www.geocities.jp/syana_dict/index.html
                            进度到S卷
                            http://pan.baidu.com/s/1jGqjUtw
                            MSIME及Google日本语入力均可直接导入


                            IP属地:中国香港15楼2014-03-25 20:08
                            回复
                              【5/4】 ゾートロープ(连SII后记)开坑
                              17卷校对拖太久了
                              结果来说还是精神比时间重要
                              没集中力的话花再多时间去校效果都不会好
                              SII只差ゾートロープ(连后记)就完工了
                              之所以拖这麼久是因为纠结应该如何结合漫画化的CHAPTER 2和4
                              不过目前为止先要做的还是将小说的2个CHAPTER先行收录再说
                              约220页预定1月的话那50页的内容就是1周左右
                              尽量完成再开新坑


                              IP属地:中国香港本楼含有高级字体16楼2014-05-04 21:06
                              收起回复