<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0pt;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0pt;
        margin-right:0pt;
        margin-bottom:0pt;
        margin-left:36.0pt;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0pt;
        mso-margin-bottom-alt:auto;
        margin-left:0pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.hoenzb
        {mso-style-name:hoenzb;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
/* List Definitions */
@list l0
        {mso-list-id:1367565996;
        mso-list-type:hybrid;
        mso-list-template-ids:551819338 -1749787914 67698691 67698693 67698689 67698691 67698693 67698689 67698691 67698693;}
@list l0:level1
        {mso-level-start-at:0;
        mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;
        mso-fareast-font-family:Calibri;
        mso-bidi-font-family:"Times New Roman";}
@list l0:level2
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level3
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
@list l0:level4
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Symbol;}
@list l0:level5
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level6
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
@list l0:level7
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Symbol;}
@list l0:level8
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level9
        {mso-level-number-format:bullet;
        mso-level-text:;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
ol
        {margin-bottom:0pt;}
ul
        {margin-bottom:0pt;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>Hi Corrine,<o:p></o:p></p><p class=MsoNormal>Maybe this can help.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>“Title” can be several things.<o:p></o:p></p><ul style='margin-top:0pt' type=disc><li class=MsoListParagraph style='margin-left:0pt;mso-list:l0 level1 lfo1'>The visual text title on the cover.<o:p></o:p></li><li class=MsoListParagraph style='margin-left:0pt;mso-list:l0 level1 lfo1'>The H1 tag in a PDF’s tag tree.<o:p></o:p></li><li class=MsoListParagraph style='margin-left:0pt;mso-list:l0 level1 lfo1'>The Title field in the PDF’s meta data (File/Properties and select the 1<sup>st</sup> thumbtab at the top, Description)<o:p></o:p></li></ul><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>The only one of the above that is stored “at the beginning” of the document is the visual text title. Everything else is contained within the code of the PDF file itself.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>The tags are stored within the content (the concept of at the beginning or end doesn’t mean anything). Open the tags panel to view the tags tree and see if your scan produced tags, and if so, which tags and if they are in the correct, logical reading order. You can view the tags panel on the left side of Acrobat by View / Show-Hide / Navigation Panes / Tags.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Language attribute is also set and viewed in the PDF’s metadata. (File/Properties and select the last thumbtab at the top, Advanced.)<o:p></o:p></p><p class=MsoNormal> <o:p></o:p></p><p class=MsoNormal><a name="_MailEndCompose">I think we’re all confused by your question!<o:p></o:p></a></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'>“</span><span style='mso-bookmark:_MailEndCompose'><span style='font-family:"Verdana",sans-serif'>this is a scan using code not a physical scanner</span></span><span style='mso-bookmark:_MailEndCompose'>” doesn’t makes sense to me.  Technically, a scan is the results of a tangible product (like a book or printed document) that is captured by a scanner. I’ve been in the publishing industry for decades (worked with original scanners) and have never heard of a program that scans a digital file.<o:p></o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'>Maybe you mean something like convert a digital file? There are several processes that can be run on a file:<o:p></o:p></span></p><ul style='margin-top:0pt' type=disc><li class=MsoListParagraph style='margin-left:0pt;mso-list:l0 level1 lfo1'><span style='mso-bookmark:_MailEndCompose'>OCR of dead (graphical, scanned) text and create live, machine readable text.<o:p></o:p></span></li><li class=MsoListParagraph style='margin-left:0pt;mso-list:l0 level1 lfo1'><span style='mso-bookmark:_MailEndCompose'>Add tags to a PDF that has live readable text.<o:p></o:p></span></li></ul><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'>I’m also wondering how you made a file out of the Moodle instance, as there are many ways to do that, too. Maybe another process would produce a better result for your needs.<o:p></o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'>--Bevi Chagnon<o:p></o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal style='text-autospace:none'><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt;color:#D9D9D9'>— — —<o:p></o:p></span></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><b><span style='font-size:9.0pt'>Bevi Chagnon </span></b></span><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt'>| </span></span><span style='mso-bookmark:_MailEndCompose'></span><a href="http://www.pubcom.com/"><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt;color:#0563C1'>www.<b>PubCom</b>.com</span></span><span style='mso-bookmark:_MailEndCompose'></span></a><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt'> <o:p></o:p></span></span></p><p class=MsoNormal style='margin-top:4.0pt'><span style='mso-bookmark:_MailEndCompose'><i><span style='font-size:9.0pt'>Technologists, Consultants, Trainers, Designers, and Developers<o:p></o:p></span></i></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><i><span style='font-size:9.0pt'>for publishing & communication<o:p></o:p></span></i></span></p><p class=MsoNormal style='margin-top:4.0pt'><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt'>| Acrobat PDF | Print | EPUBS | Sec. 508 Accessibility |<o:p></o:p></span></span></p><p class=MsoNormal style='text-autospace:none'><span style='mso-bookmark:_MailEndCompose'><span style='font-size:9.0pt;color:#D9D9D9'>— — —<o:p></o:p></span></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><p class=MsoNormal><span style='mso-bookmark:_MailEndCompose'><o:p> </o:p></span></p><span style='mso-bookmark:_MailEndCompose'></span><p class=MsoNormal><b>From:</b> athen-list [mailto:athen-list-bounces@mailman13.u.washington.edu] <b>On Behalf Of </b>Corrine Schoeb<br><b>Sent:</b> Wednesday, May 24, 2017 11:17 AM<br><b>To:</b> athen-list@u.washington.edu<br><b>Subject:</b> Re: [Athen] Title, tags, lang - where are they in a PDF document? Beginning or end?<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><div><div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>Thank you to everyone who has responded so far.<o:p></o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'><o:p> </o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>I think I need to clarify - this is a scan using code not a physical scanner.  We've developed a scan for our Moodle instance.  Right now, it can recognize text vs. an image of text but we are working on refining that scan further.  Large documents take up a lot of cpu/memory so we are thinking we might be able to limit our scan the first 5-10 pages to see if there is a title, tags, etc.  I'm just not sure where that data is stored - at the beginning or at the end of the PDF.<o:p></o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'><o:p> </o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>I know this is very technical question and a bit obscure but I figured this might be the right group.<o:p></o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'><o:p> </o:p></span></p></div></div></div><div><p class=MsoNormal><o:p> </o:p></p><div><p class=MsoNormal>On Wed, May 24, 2017 at 8:34 AM, Corrine Schoeb <<a href="mailto:kschoeb1@swarthmore.edu" target="_blank">kschoeb1@swarthmore.edu</a>> wrote:<o:p></o:p></p><blockquote style='border:none;border-left:solid #CCCCCC 1.0pt;padding:0pt 0pt 0pt 6.0pt;margin-left:4.8pt;margin-right:0pt'><div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>We are working on creating a scan of PDF documents, some of which are 100+ pages.  Rather than scan the full document to find out if it is tagged, has a title and language we thought we might be able to do the first 5-10 pages but I'm not sure where the title, tag, lang data is stored in a PDF.  <o:p></o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'><o:p> </o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>So my question is, is title, tag, lang attributes of a PDF stored at the beginning of a PDF or at the end?<o:p></o:p></span></p></div><div><p class=MsoNormal><span style='color:#888888'><o:p> </o:p></span></p></div><p class=MsoNormal><span class=hoenzb><span style='color:#888888'>-- </span><o:p></o:p></span></p><div><div><div><div><div><div><div><p class=MsoNormal><o:p> </o:p></p></div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:#888888'>Corrine Schoeb<br>Technology Accessibility Coordinator, ITS</span><span style='color:#888888'><o:p></o:p></span></p><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:#888888'><a href="tel:(610)%20957-6208" target="_blank">610-957-6208</a></span><span style='color:#888888'><o:p></o:p></span></p></div><div><p class=MsoNormal><span style='color:#888888'><o:p> </o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:black'>*** Swarthmore College ITS will never ask you for your password, including by email. Please keep your passwords private to protect yourself and the security of our network.</span><span style='color:#888888'><o:p></o:p></span></p></div><div><p class=MsoNormal><span style='color:#888888'><o:p> </o:p></span></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:black'>To learn more about web security visit <a href="http://www.swarthmore.edu/its/security" target="_blank">http://www.swarthmore.edu/its/security</a></span><span style='color:#888888'><o:p></o:p></span></p></div><div><p class=MsoNormal><span style='color:#888888'><o:p> </o:p></span></p></div></div></div></div></div></div></div></div></blockquote></div><p class=MsoNormal><br><br clear=all><o:p></o:p></p><div><p class=MsoNormal><o:p> </o:p></p></div><p class=MsoNormal>-- <o:p></o:p></p><div><div><div><div><div><div><div><p class=MsoNormal><o:p> </o:p></p></div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>Corrine Schoeb<br>Technology Accessibility Coordinator, ITS</span><o:p></o:p></p><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif'>610-957-6208</span><o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:black'>*** Swarthmore College ITS will never ask you for your password, including by email. Please keep your passwords private to protect yourself and the security of our network.</span><o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal><span style='font-family:"Verdana",sans-serif;color:black'>To learn more about web security visit <a href="http://www.swarthmore.edu/its/security" target="_blank">http://www.swarthmore.edu/its/security</a></span><o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div></div></div></div></div></div></div></div></div></body></html>