Table of Contents
Структура файлов сообщений
2004-10-07 19:05:18
Yuri Prokushev
В данной статье приведено описания строения файлов *.MSG, библиотеки MSG.DLL. Дано описание компилятора MKMSGF.EXE и формата исходных файлов сообщений.
Внутренности NLS
В рамках проекта osFree стоит задача разработки полнофункциональной замены стандартных утилит разработки. Одной из таких утилит является аналог компилятора файлов сообщений с открытым исходным кодом. В результате данной работы было проведено исследование структуры файлов *.MSG. Подготовка исходных файлов сообщений
Исходным файлом для компилятора файлов сообщений является обычный текстовой файл. Формат файла довольно простой.
; Коментарий начинается с символа ';'. Строка с данным символом пропускается. MSG MSG0001I: Информационное сообщение %1. MSG0002E: Сообщение об ошибке %1 %2. MSG0003H: Большое многострочное сообщение MSG0004P: Сообщение без перехода на новую строку %0
Здесь MSG - это идентификатор файла сообщений. Идентификатор должен состоять из 3-х символов латинского алфавита. Оригинальный компилятор не позволяет вставлять коментарий между идентификатором файла сообщений и идентификатором сообщения. Аналог данного компилятора позволяет использовать коментарий в любой части файла.
MSG0001I - составной идентификатор сообщения. Первые три символа - идентификатор файла сообщений. Следующие четыре символа - номер сообщения. Последний символ - тип сообщения. Может быть любым латинским символом из
I Информационное сообщение H Справочное сообщение E Сообщение об ошибке W Предупреждение P Prompt ? Нет сообщения
Идентификатор сообщения заканчивается символами двоеточия и пробела. Для вставки параметров в сообщения предусмотрены модификаторы %?, где ? равен числу от 1 до 9. Специальный символ %0 используется для типа сообщения Prompt, для предотвращения вывода символа перевода строки. Сообщение Prompt в обязательном порядке содержит в конце последовательность %0.
Компиляция файла сообщений
Для компиляции файла сообщений необходима утилита MKMSGF из OS/2 Developer's Toolkit. Так как Toolkit не распространяется свободно (исключая владельцев eComStation), была написана аналогичная по своим возможностям утилита под osFree License. Использование обеих утилит полностью одинаково.
Предположим, что файл с исходными сообщениями называется NOS_RU.txt, а двоичный файл сообщений имеет имя NOS_RU_RU.MSG. Тогда для компиляции необходимо использовать команду
MKMSGF NOS_RU.txt NOS_RU_RU.MSG
При этом файл будет создан с кодом текущей страны. Для создания прочих языковых файлов необходимо использовать дополнительные ключи:
/V Вывод дополнительной информации /D подмножество DBCS или код страны с DBCS /P Кодовая страница. Может быть указано до 16 страниц /L Идентификатор языка и диалекта /? Вывод справочной информации
Многоязычные файлы сообщений
Файлы сообщений не были бы так интересны, если бы могли содержать только сообщения одной страны, в одной кодировке. Поэтому существует возможность создания многоязыковых файлов сообщений. При этом подготавливаются аналогичные исходные файлы сообщений с одинаковыми идентификаторами сообщений, но с различным текстом сообщений. Прежде чем начинать компиляцию файлов сообщений, необходимо подготовить управляющий файл. Например, файл NOS_UNI.txt:
NOS_EN.txt NOS_UNI.MSG /L1 /P437 NOS_RU.txt NOS_RU_RU.cp866.MSG /L7 /P866 NOS_RU.koi8r.txt NOS_RU_RU.koi8r.MSG /L7 /P878 NOS_RU.win1251.txt NOS_RU_RU.win1251.MSG /L7 /P1251
После запуска компилятора
MKMSGF @NOS_UNI.txt
создаются файлы сообщений NOS_UNI.MSG и NOS_RU_RU.*.MSG. Файл NOS_UNI.MSG будет являться опорным файлом и содержать информацию об остальных файлах сообщений, то есть в дальнейшем не потребуется перебирать все варианты файлов для поиска необходимого.
Встраивание файлов сообщений в исполняемый файл
Возможно встраивание файла сообщений в исполняемый файл. Для этого предназначена утилита MSGBIND.EXE. Данная статься не рассматривает данный процесс, отметим только, что сообщения сохраняются в сегменте MSGSEG.
Использование файлов сообщений
Для управления файлами сообщений используется библиотека MSG.DLL. Данная библиотека содержит четыре функции:
DosTrueGetMessage DosInsertMessage DosPutMessage DosIQueryMessageCP
Функция DosTrueGetMessage обычно напрямую не используется. Различные компиляторы обычно оспользуют механизмы runtime-библиотек для предоставления функции DosGetMessage, которая не содержит параметр MsgSeg, указывающий на сегмент с сообщениями, встроенными в исполняемый файл.
Аналогичный подход, по тем же самым причинам, выполняется для функции DosQueryMessageCP, которая скрывает вызов функции DosIQueryMessageCP.
Функции DosInsertMessage и DosPutMessage используются напрямую без необходимости какого-либо вмешательства со стороны runtime-библиотек.
Более подробное описание данных функций и пример реализации runtime-части для конкретного компилятора может быть получено из Developer's Toolkit и исходных текстов runtime для OpenWatcom, EMX, VirtualPascal, FreePascal, Sibyl и ряда других компилятороа. Формат двоичного файла сообщений
Заголовок двоичных индексированных файлов сообщений OS/2 имеет следующую структуру:
Magic : Array[1..8] of Char; // Сигнатура файла Identifier : Array[1..3] of Char; // Идентификатор сообщений // (SYS, DOS, NET и пр.) MessagesNumber : Word; // Количество сообщений FirstMessageNumber : Word; // Номер первого сообщений Offsets16bit : Boolean; // Размерность таблицы смещений Version : Word; // Версия файла 2 - Новая 0 - Старая IndexTableOffset : Word; // Смещение таблицы индекирования CountryInfo : Word; // Смещение информации о стране NextCountryInfo : DWord; // Смещение списка информации // для многоязычный файлов сообщений Reserved2 : Array[1..5] of byte; // Назначение неизвестно
Файлы старой версии сейчас практически не используются. Единственное приложение, использующее формат старой версии (OS/2 1.x) - это Software Installer. Все поля, начиная с Version, для версии 0 заполняются нулями.
Для многоязычных файлов сообщений поле NextCountryInfo содержит смещение на список файлов сообщений и информацию о стране для этих файлов. Данный список содержится в одном, главном, файле сообщений. Остальные файлы данного списка не содержат. Список начинается со следующей структуры
BlockSize : Word; //Размер блока информации о стране BlocksCount : Word; //Количество блоков
Блок информации о стране имеет следующую структуру:
BytesPerChar : Byte; // Байт на символ (1 - SBCS, 2 - DBCS) Reserved : Array[0..1] of byte; // Неизвестно LanguageFamilyID : Word; // Семейство языков LanguageVersionID : Word; // Диалект языка CodePagesNumber : Word; // Число кодовых страниц CodePages : Array[1..16] of Word; // Список кодовых страниц (макс. 16) Filename : Array[0..260] of Char; // Имя файла сообщений
Новый формат исходного файла сообщения
Вы могли заметить, что исходный формат файла не очень-то и удобен. Синхронизировать файлы на различных языках довольно сложно. Известные автору прочие подходы к исходным файлам (например, tmf, gettext) либо вообще не поддерживают отличную от 850 кодовую страницу, либо поддерживают всего одину кодовую страницу на файл. Поэтому предложен свой формат, который использует кодировку UTF-8, а следовательно, поддерживает практически неограниченное число кодовых страниц. Кроме того, поддержка национальных файлов значительно упрощается за счет совмещения всех языков в одном файле.
Поленившись изобретать велосипед, автором предложено использовать язык xml для разметки файла сообщения, тем более, что в наличии имеются различные библиотеки для работы с xml.
<?xml version="1.0" encoding="UTF-8"?> <!-- osFree message file --> <!-- --> <!-- Messages from 0000 to 7999 are reserved for compatability reason with --> <!-- future versions of OS/2 and eComStation. If you want add new messages, --> <!-- then add them starting to 8000-9999 range. --> <messagefile id="SYS"> <languages> <language id="en" codepage="850" countrycode="1" countrysubcode="1"/> <language id="ru" codepage="866" countrycode="7" countrysubcode="1"/> </languages> <messages> <msg number="0" type="I"> <lang id="en">Y N A R I<br /></lang> <lang id="ru">1 2 1 2 3<br /></lang> </msg> <msg number="1" type="I"> <lang id="en">Incorrect function<br /></lang> <lang id="ru">Неверная функция<br /></lang> </msg> </messages> </messagefile>
Как вы можете видеть, здесь два логических блока:
Блок определения языков Блок описания сообщений
Блок определения языка аналогичен файлу ответов для многоязычных файлов сообщений.
Расширение API
Наверное, единственное, что хотелось бы расширить - это ввести аналогичную GNU gettext функцию. Т.е. получать сообщение не только по индексу, но и по сообщению первого языка. Предлагаемый прототип функции:
APIRET APIENTRY DosGetMessage(PCHAR* pTable, ULONG cTable, PCHAR pBuf, ULONG cbBuf, PSZ pszMessage, PSZ pszFile, PULONG pcbMsg);
Таким образом, при вызове функции DosGetMessage(nil, 0, buf, sizeof(buf), “English message\n”, “OSO001.MSG”, nil) будет получено, например “Русское сообщение\n”. Недостатком такой функции является более низкая скорость работы, но улучшение читаемости кода, а также возможность автоматического получения строк из исходного кода.
Пришлите ваши комментарии
Автору интересны предложения и замечания по новому формату файлов сообщений, равно как и предложения по расширению существующего API.
Читайте также
Локализация с помощью GNU GETTEXT Говорите по-русски Multilingual Resources Работа с кодовыми страницами стандартными средствами OS/2